לשמוע מה שרוצים לשמוע

לפני שתקראו את ההמשך, הקשיבו קודם כל כמה פעמים להקלטה הקצרצרה הזו. מה נאמר שם?

מסתבר שהקטע הזה עורר סערה קטנה בארה"ב. מדובר בספר אינטרקטיבי לילדים, שבו לחיצה על כל אחד מהכפתורים משמיעה קטע אודיו קצר. אחד הכפתורים משמיע מה שאמור להיות קולה של אחת הדמויות, שאומרת "Uh oh, who has to go?". אלא שבשל איכות ההקלטה הגרועה, יש מי ששמע דווקא "Uh oh, who wants to die?". יחי ההבדל. הנושא כיכב כנראה במספר לא קטן של עיתונים ומהדורות חדשות בטלוויזיה האמריקאית, והוביל כבר להתנצלות פומבית של ההוצאה לאור.

מקור הבעיה הוא כמובן האיכות הגרועה במיוחד של קטע האודיו. למי שמעוניין בהסברים בדבר הקושי בהבחנה בין צלילים מסוימים כפונקציה של האיכות האקוסטית של הקלט, ניתן למצוא שני דיונים מפורטים בנושא זה כאן וכאן. מעבר לדיון באקוסטיקה ובפונטיקה, מחברי שני המאמרים הנ"ל מתייחסים לנושא ה-priming: האופן שבו אנחנו מפרשים את הצליל האקוסטי שאנחנו שומעים מושפע במידה רבה מהדברים שנחשפנו אליהם זמן קצר לפני כן ומהציפיות שלנו. במקרה זה, אם מקשיבים לקטע הנידון מספר פעמים, ניתן לראות שכאשר מצפים לשמוע אחד משני הפירושים האפשריים, זה מה ששומעים. מעבר לעובדה שאנחנו נוטים לשמוע מילים או משפטים שלהם אנו מצפים עקב חשיפה קודמת, הציפיות של השומע יכולות להיות מושפעות גם משיקולים לשוניים מסוגים שונים: עקרונות פונולוגיים (למשל, בעברית נצפה לאסימילציה בקוליות בסביבות מסוימות, כך שייתכן שעבור רצף צלילים שניתן לפירוש או כ-/zt/ או כ-/zd/ ניטה לשמוע את הרצף השני ולא את הראשון); השאיפה לזהות מילים קיימות (אם שמענו מה שניתן להבין כ-/toste/, נצפה אולי שהצליל הבא יהיה /r/); מגבלות תחביריות (למשל, אם שמענו "אני רוצה עוד שלושה…", נצפה שהמילה הבאה תהיה שם עצם ברבים); וכד'.

העובדה שהדיבור שאנחנו שומעים אינו חד-משמעי היא בעיה מרכזית בתחום של זיהוי דיבור אוטומטי (ASR) – כלומר, בתחום של פיתוח תוכנות שמזהות שפה מדוברת, ביישומים כגון הכתבה (כתחליף להקלדה) או שליטה קולית במערכות שונות. מכיוון שקלט אקוסטי לעולם אינו חד-משמעי, והיות ותמיד קיימת מידה זו או אחרת של "רעש", מערכות מסוג זה נוקטות בד"כ בגישה הסתברותית של חיפוש ההתאמה הטובה ביותר: מבין כל האפשרויות לפרש קלט מסוים, המערכת תבחר בפירוש שהוא בעל ההסתברות הגבוהה ביותר להיות המקור לקלט. כמו כל מערכת הסתברותית, שיטה כזו לא תמיד מצליחה, כפי שיכול להעיד כל מי שהתנסה בשימוש במערכת לזיהוי דיבור. מכיוון שקידוד כחלק מהתוכנה של כל הידע הלשוני והחוץ-לשוני שבו בני אדם נעזרים במצבים מסוג זה הוא משימה שאנחנו רחוקים עדיין מלהיות מסוגלים לבצע, לא ניתן לצפות שמערכת ממוחשבת לזיהוי דיבור תגיע לרמת הדיוק של שומע אנושי ממוצע.

ולסיום, אם כבר עוסקים בנושא של זיהוי דיבור וההשפעה של ציפיות ו-priming, אי אפשר לוותר על הדוגמא הנהדרת הזו. למרות שאיש אינו מעלה על דעתו שבשיר Ameno של Era יופיע משפט כמו "חמם עוד אורז", עם ה-priming המתאים קל "לשמוע" בדיוק את המשפט הזה, כמו עוד הרבה דברים מופרכים בעליל.

2 תגובות »

  1. שירי כתב(ה),

    אוקטובר 19, 2006 @ 1:05

    אחת מחברות המחשבים המובילות ניסתה השנה להתחיל בשיווק תוכנה כדוגמת Office Word שתעבוד על פי זיהוי דיבור אוטומטי, כך שבמקום להקליד מילים ידנית, התוכנה תעבד את ההוראות הקוליות ותעלה את המילים על דף המסמך.
    בהדגמה בשידור חי, הניסיון נכשל. ברוב הפעמים, התוכנה זיהתה מילים שונות (אם בכלל) מאלו שאליהן התכוון המציג.

    הנה קישור לעוד ניסיון נחמד שמעיד על בוסריות. אומנם עובד יפה אבל מתחיל לעייף בשלב כלשהו.

    http://www.youtube.com/watch?v=zgJyqvcAXe0

    אני משערת כשכמו שאמרת, הרגישות להגיית הצלילים ובנוסף מבטא, סגנון דיבור (על פי איזורי מגורים ורקע חברתי), ואף ליקויי שפה לא יעלו בקנה אחת עם תוכנה שככל הנראה תהייה נעולה על הפירוש בעל ההסתברות הגבוהה ביותר.

  2. עדן כתב(ה),

    יולי 6, 2007 @ 5:54

    כתבה יפיפיה ומעניינת

RSS feed for comments on this post · TrackBack URI

הוספת תגובה