גוגל ככלי למחקר בלשני?

פוסט באתר Language Log השבוע התייחס למגבלות של שימוש בגוגל ככלי עזר למחקר בלשני. ההסתייגות שם (המבוססת בעיקר על הפוסט הזה והזה) היא בעיקר מחוסר האמינות של המידע הכמותי המתקבל מתוצאות חיפוש בגוגל, המוביל לכך שלא ניתן להשתמש בחיפושים בגוגל כדי להסיק מסקנות חד-משמעיות בדבר התדירות היחסית של ביטויים או צירופים שונים. למעשה, זוהי רק אחת מתוך מספר רב של מגבלות שמהן סובל השימוש בגוגל ככלי למחקר בלשני; בניגוד להסתייגות מאמינות המידע הכמותי, מגבלות אחרות רלוונטיות גם למי שהמחקר שלו על השפה אינו כמותי.

הפיתוי להעזר בגוגל כדי להגיע במהירות לנתונים על השימוש האמיתי בשפה הוא גדול מאד. כל בלשן שעוסק בתיאור תופעה לשונית יודע כמה קשה לעתים לקבוע האם מבנה מסוים הוא אפשרי או לא. המתודולוגיה המקובלת בבלשנות הגנרטיבית היא פניה לשיפוטים של דוברים ילידיים: אם ברצונך לדעת אם מבנה כלשהו אפשרי בשפה, עליך ליצור משפטים שבהם מופיע מבנה זה ולשאול דוברים ילידיים האם המשפטים נשמעים להם תקינים. גישה זו שונה מהגישה של הבלשנות הסטרוקטורליסטית שרווחה עד שנות החמישים, ושל בלשנות הקורפוס של ימינו, בכך שהיא אינה סובלת מהבעיה של חלקיות הקורפוס: מכיוון שיש אינסוף משפטים אפשריים בשפה, שום קורפוס, גדול ככל שיהיה, לא יכול להכיל את כל משפטי השפה. לכן, אם בלשן בודק האם מבנה מסוים אפשרי ע"י חיפושו בקורפוס, לא ניתן להסיק שום מסקנה חד-משמעית כשהמבנה המבוקש לא מופיע בקורפוס. גם המתודולוגיה הגנרטיבית, מצידה, אינה נטולת בעיות, כפי שבלשנים גנרטיבים רבים מודים בפה מלא (וכפי שבלשנים לא גנרטיבים מציינים במידה בלתי מבוטלת של שמחה). מכיוון שהביקורת הגנרטיבית על שימוש בקורפוס היא למעשה ביקורת כנגד התבססות בלעדית על שימוש בקורפוס, אין למעשה סיבה שבלשן גנרטיבי יימנע מלהשתמש בקורפוס כמקור נוסף, יחד עם שיפוטי דוברים, למידע על השפה. בהקשר זה, מנוע החיפוש גוגל מהווה למעשה קורפוס עצום המתעדכן מדי יום, מה שהופך אותו למקור מרתק למידע על השפה העכשווית.

יחד עם זאת, גם אם מקבלים את השימוש בקורפוס ככלי עזר נוסף, אסור להתעלם מכך שקורפוס כמו גוגל סובל ממספר חסרונות משמעותיים. ראשית, הנתונים שמספק חיפוש בגוגל מציבים בעיות מתודולוגיות בלתי מבוטלות:

  • מכיוון שחברת גוגל אינה מפרסמת פרטים רבים לגבי האופן שבו מנוע החיפוש בוחר את התוצאות, השימוש בו ככלי למחקר מדעי הוא בעייתי מאד כי לא ניתן לקבוע באופן מדויק מה משמעות התוצאות.
  • דפים רבים באינטרנט, בעיקר באנגלית, נכתבים על-ידי מי שהשפה שבה כתוב האתר אינה שפת האם שלהם. כל מי שקרא הוראות באנגלית למכשיר מתוצרת סין יודע עד כמה כתיבה מסוג זה יכולה להיות רחוקה משפתם של הדוברים הילידיים. בחיפוש בגוגל, אין דרך אוטומטית לסנן תוצאות מסוג זה.
  • הנתונים שבגוגל אינם כוללים חלוקה לדיאלקטים. מכיוון שדיאלקטים נבדלים זה מזה לעתים בחלק מכללי הדקדוק, מחקר בלשני צריך להתבסס על נתונים הכוללים מידע על שיוך לדיאלקט. בחיפוש בגוגל לא ניתן לבודד משתנה זה. הסתייגות דומה חלה על הבדלים בין רבדים שונים של השפה.
  • גוגל הינו אינדקס של טקסטים כתובים, ואינו מכיל מידע על השפה המדוברת, שהיא מושא המחקר העיקרי של הבלשנות הגנרטיבית.
  • דפים באינטרנט כוללים שגיאות הקלדה וטעויות אחרות הנובעות מהשימוש במחשב, דבר המכניס אלמנט של "רעש" מסוג שלא קיים בשפה המדוברת.
  • גוגל כולל, בין השאר, דפים ומאמרים בלשניים, שעשויים להכיל לא מעט דוגמאות למבנים בלתי אפשריים. חיפוש בגוגל ייתן גם דפים אלה, ונדרשת בדיקה פרטנית של כל דף לגופו כדי לקבוע האם הוא מציג דוגמא למבנה אפשרי או למבנה בלתי אפשרי.

מעבר למגבלות המתודולוגיות הכלליות הללו, ישנן מגבלות טכניות לגבי שימוש בגוגל בתחום התחביר. התחביר המודרני עוסק במבנים היררכיים מופשטים, ולא במילים בודדות או בשרשראות של מילים. טקסט כתוב, לעומת זאת, אינו כולל מידע לגבי המבנה המופשט, ומנועי חיפוש באינטרנט אינם מספקים כלים לחיפוש על פי מבנה. ניקח דוגמא פשוטה: הפועל בעברית מתאים במין, מספר וגוף עם הנושא. לכלל זה יש יוצא מן הכלל בעברית המדוברת של רבים מדוברי העברית: עם פעלים מסוימים, כאשר הנושא מופיע אחרי הפועל, הפועל אינו חייב להתאים עם הנושא (ראו למשל דיון כאן וכאן):

1. נגמר לי הסבלנות.
2. היה לי כמה רעיונות.
3. כואב לי הבטן.

לא כל פועל יכול להופיע ללא התאם עם הנושא. בלשן שרוצה לנסות לאפיין את קבוצת הפעלים שיכולים להופיע ללא התאם עשוי להתקל בבעיה נפוצה המתעוררת כשחוקרים מבנים שנחשבים ל"בלתי תקינים" על-פי הנורמה המקובלת לדיבור "נכון": אפילו דוברים שמשתמשים במבנים אלה באופן יומיומי (ולעתים קרובות בלתי-מודע) עשויים לשפוט אותם כבלתי דקדוקיים ולהביע התנגדות נחרצת לשימוש בהם (בעיה שקיימת בעיקר בחברות שבהן קיימת מסורת של חינוך לדיבור "תקני", והחברה הישראלית מהווה דוגמא מובהקת לכך). לכאורה, שימוש בגוגל יכול היה לעקוף בעיה זו: אם ברצונך לבדוק האם פועל מסוים יכול להופיע ללא התאם, חפש את כל המופעים של פועל זה לפני הנושא, ובדוק האם התוצאות כוללות גם משפטים ללא התאם. אלא שמבחינה מעשית, לא ברור איך אפשר לבצע חיפוש שכזה במנוע חיפוש סטנדרטי: אם מחפשים רק את הפועל שאותו רוצים לבדוק, מקבלים את כל הדפים שבהם מופיע פועל זה, וכמות העבודה שתידרש כדי לאתר בתוך תוצאות אלה את המקרים שבהם מופיע הפועל לפני הנושא הופכת את העניין לבלתי מעשי. סביר גם שאפילו אם הפועל יכול להופיע ללא התאם, רק חלק קטן מאד מהתוצאות ידגימו זאת זאת; מה שהיינו רוצים באמת, אם כך, זה לבצע חיפוש שיחזיר רק משפטים שבהם הפועל מקדים את הנושא ואינו מתאים לו. אבל אין שום דרך לצמצם את החיפוש בצורה זו; אפילו דרישה צנועה יותר, כמו לקבל רק דפים שבהם הפועל בא מיד לפני שם עצם, אינה ניתנת לביצוע, כי אוסף הטקסטים של מנוע החיפוש אינו כולל מידע בלשני על קטגוריות לכסיקליות ("חלקי דיבר"), וודאי לא על תפקידים תחביריים כמו "נושא". לכן, השימוש בגוגל במקרה זה יכול להיות רק לבדיקת צירופים או משפטים ספציפיים, שימוש שערכו מוגבל מאד. למרבה הצער, אין אפשרות לבצע בגוגל (או בשום מנוע חיפוש סטנדרטי אחר) חיפוש של ביטויים רגולריים, דבר שאילו היה אפשרי היה מגדיל במידה ניכרת את היכולת להגדיר מאפייני חיפוש מורכבים.

למרות כל ההסתייגויות הללו, חיפוש בגוגל יכול לעתים קרובות לשמש כ"פיילוט" מהיר לפני בירור מעמיק בעזרת שיטות אמינות וחזקות יותר. בעזרת שילוב של יצירתיות באופן ניסוח החיפוש עם זהירות רבה בפירוש התוצאות, מדובר בכלי מרתק ורב-עוצמה שמאפשר גישה מיידית לכמות אדירה של מידע על השפה כפי שהיא ברגע זה.