ארכיון לקטגוריה בלשנות חישובית

טלסקופ טוב הוא טלסקופ יקר

הנה משהו נחמד שנתקלתי בו רק אתמול דרך פוסט ב-Reddit, למרות שהוא כנראה מסתובב ברשת כבר לפחות שנה: How much does a good telescope cost?

כלומר, בתשובה לשאלה "How much does a good telescope cost" עונה גוגל ש-2.5 מיליארד דולר, כי זה המחיר של הטלסקופ Hubble. והמצחיק הוא שבמובן מסוים זו באמת תשובה נכונה, אבל לא במובן שרלוונטי למי ששואל שאלה כזו. למה? בלשנות, ודי הרבה אפילו.

אז קודם כל, שם התואר good הוא יחסי ועמום. יחסי, במובן שהקריטריונים ל"טוב" תלויים בשם העצם שאותו מתארים. מה שעושה ילד ל"ילד טוב" שונה ממה שעושה סרט ל"סרט טוב" או ממה שעושה טלסקופ ל"טלסקופ טוב". ועמום, במובן שגם אם קבענו כבר את הקריטריונים, נקודת החיתוך על הסקאלה הרלוונטית שמעליה נגיד שמשהו טוב היא לא דבר קבוע וחד משמעי. במקרה של טלסקופ, גם אם הקריטריונים להגדרת טלסקופ כ"טוב" הם יחסית קבועים (הגדלה, חדות תמונה, עמידות וכו'), הסטנדרטים עשויים להיות שונים מהקשר להקשר: מה שמספיק טוב לילד בן 8 לא בהכרח מספיק טוב לאבא שלו, ובטח שלא לאנשי נאס"א. במקרה של התשובה של גוגל, ברור שמי ששואל שאלה כזו לא מניח סטנדרטים של נאס"א, ולכן ה"בחירה" של גוגל בתשובה שמבוססת על הסטנדרטים הגבוהים ביותר שאפשר להעלות על הדעת הופכת את התשובה ללא רלוונטית.

אבל זה לא הכל. צירוף כמו "טלסקופ טוב" יכול להתפרש בשני אופנים: כמציין סוג של טלסקופים, או כמציין טלסקופ אחד מסוים. ב"טלסקופ טוב מראה דברים שלא ידעת שקיימים", "טלסקופ טוב" מתפרש באופן גנרי, והמשפט מתאר תכונה שיש לטלסקופים טובים באופן כללי. לעומת זאת, ב"טלסקופ טוב נפל לי לפני רגע מהחלון", מדובר בטלסקופ אחד מסוים, לא בסוג של טלסקופים. שמות עצם ביחיד שאינם מיודעים יכולים להתפרש בשתי הצורות, כשלעתים קרובות רק כשמסתכלים על המשפט כולו אפשר לדעת איזו משתי המשמעויות היא הרלוונטית. הנה למשל שתי כותרות מ"הארץ":

haaretz specific 2016-08-23

haaretz generic 2016-08-23

הנושא בכותרת הראשונה ("מחקר ישראלי") מציין מחקר אחד מסוים; ולעומת זאת הנושא בכותרת השניה ("תלמיד במזרח ירושלים") הוא נושא גנרי: הכותרת לא אומרת שיש תלמיד אחד במזרח ירושלים שמקבל מחצית מהתקציב של תלמיד במערב העיר, אלא שתלמיד טיפוסי במזרח העיר מקבל מחצית ממה שמקבל תלמיד טיפוסי במערבה. בשני המשפטים יש גם משמעות הפוכה, אם מתעקשים (במשפט הראשון: "מחקר ישראלי בדרך כלל חושף…."), אלא שכדוברי השפה אנחנו בד"כ מזהים מיד האם המשמעות הרלוונטית היא הגנרית או הספציפית.

ומה זה קשור לתשובה של גוגל? השאלה "כמה עולה טלסקופ טוב?" היא כמובן שאלה שהפירוש הסביר עבורה הוא הפירוש הגנרי: כמה עולה טלסקופ טוב טיפוסי/בד"כ? אלא שהתשובה של גוגל היא בהתאם לפירוש הספציפי: טלסקופ טוב מסוים עולה 2.5 מיליארד דולר. הסקת המסקנות שנכונה בפירוש אחד לא בהכרח נכונה בפירוש השני: אם "מקס הוא חתול", ו"מקס אוכל לי את האוכל" אמיתיים, נובע ש"חתול אוכל לי את האוכל" אמיתי, בפירוש הספציפי של "חתול" במשפט השלישי (=יש חתול מסוים שאוכל לי את האוכל). לעומת זאת, אם "האבל הוא טלסקופ טוב" ו"האבל עולה 2.5 מיליאד דולר" נכונים, לא נובע ש"טלסקופ טוב עולה 2.5 מיליארד דולר" בפירוש הגנרי של "טלסקופ טוב".

נו, טוב.

אין תגובות 

יש למישהו פרגמטיקה למכירה?

לא בדיוק בלשנות, אבל בהמשך לפוסט על מנוע החיפוש הסמנטי Powerset, הגיעו עכשיו החדשות הצפויות: מיקרוסופט קונה את פאוורסט. הפוסט בבלוג שלהם שבו הם מסבירים את העסקה נשמע כמו משהו שאפשר לתמצת בארבע מילים: "היינו צריכים את הכסף".

אין לי שום כוונה להסתיר את חוסר החיבה שלי (אם לנסח את זה בעדינות) למיקרוסופט ולמוצרים שלהם (ולמי שתוהה, אני מסתדר נהדר בלי אף תוכנה שלהם). בהקשר של פאוורסט, אני יכול רק לקוות שהמעבר לידיים של מיקרוסופט לא יוליד בסופו של דבר עוד זוועה בנוסח ה-paperclip הנורא, שאולי (?) היה לו איזשהו ידע סמנטי מאד בסיסי, אבל היתה לו גם בעיה לא קטנה בפרגמטיקה. כמו שכל סטודנט לבלשנות יודע, לא מספיק לדעת את המשמעות המילולית של מילה או של משפט, צריך גם לדעת באילו תנאים מתאים להשתמש בהם: מי שבתשובה לשאלה "יש לך שעון" עונה פשוט "כן", מבין אולי את התוכן המילולי (הסמנטיקה), אבל לא מבין את תנאי השימוש בתוך הקשר (הפרגמטיקה). כלל בסיסי בפרגמטיקה, אחד מכללי השיח של Grice, הוא כלל הכמות: תן בדיוק את כמות האינפורמציה הנחוצה, לא יותר ולא פחות. זו כנראה אחת הבעיות שממנה סבל אותו יצור מעצבן ב-Office, שלא היסס בכל הזדמנות לספק אינפורמציה חיונית כמו "It looks like you're writing a letter", ושהצליח להוציא מדעתו כל מי שאי פעם השתמש בתוכנה הזו, כמו שמעידה כמות הפארודיות (למשל, זו, זו, זו או זו). יש כמובן גבול למידת האינטיליגנציה שלה אפשר לצפות; אבל למגבלות הטכנולוגיות הצטרפו כנראה גם שיקולים לא ממש מקצועיים, כמו הרצון להמשיך ולשווק מוצרים שאשת הבוס היתה מעורבת בהם. בקיצור, אני יכול רק לקוות בשביל פאוורסט שהם יצליחו, למרות כל זה, להפוך את הטכנולוגיה שלהם למשהו שלא ייראה כמו עוד מוצר של מיקרוסופט.

אמרתי שזה לא בדיוק פוסט על בלשנות, לא?

אין תגובות 

מנוע חיפוש סמנטי: מה זה אומר?

מנוע חיפוש חדש שנחשף לאחרונה, Powerset, מעורר עניין רב בכלי התקשורת, כשהחידוש הגדול שבו הוא היותו "מנוע חיפוש סמנטי". מה זה אומר? מדובר במנוע חיפוש שעושה שימוש בכמות מרשימה של ידע בלשני לשם "הבנה" של הטקסט, דבר שאמור לאפשר חיפוש חכם שחורג מעבר לאיתור מילות המפתח שהקליד המשתמש. במידה ומנוע חיפוש מסוג זה יוכיח את עצמו כשימושי ויעיל יותר ממנועי החיפוש הקיימים, יהווה הדבר הוכחה נוספת לכך שגם למחקר בתחום תיאורטי כמו בלשנות יכול להיות ערך מעשי. המשך »

9 תגובות 

תרגום סימולטני באמצעות מחשב?

מישהו בפנטגון רואה כנראה יותר מדי סרטי מדע בדיוני. לפי דיווח של Associated Press שהתפרסם ביאהו, בוחן צבא ארה"ב שימוש בתוכנה לתרגום בזמן אמת של שפה מדוברת מאנגלית לערבית ולהיפך; ההערכה שמופיעה בכתבה צופה שהתוכנה תיכנס לשימוש לא לפני 2009 – הערכה אופטימית ונאיבית באופן תמוה, לדעתי. שווה להציץ בתגובות ב-slashdot לכתבה, שרובן תמימות דעים שמדובר בתוכנית בלתי מציאותית עד כדי גיחוך. המשך »

2 תגובות 

"בלשנות? מה אפשר לעשות עם זה?"

אחת השאלות שבהן נתקל כל מי שלמד או לומד בלשנות היא "אבל מה אפשר לעשות עם זה?". בואו נהיה מציאותיים: מדורי הדרושים בעיתון לא בדיוק עמוסים במודעות ענק של "דרוש בלשן"; חיפוש מודעות הכוללות את המילה "בלשנות" באתר AllJobs.co.il שביצעתי בזמן כתיבת פוסט זה הניב תוצאה אחת ("לשלוחתנו בכרמיאל, הנמצאת בתהליך גידול מואץ דרוש/ה מומחה/ית טקסונומיה – ידע נרחב במערכות חיפוש ממוחשבות. נסיון בהגדרת מערכות קטלוג או סווג – יתרון. אנגלית ברמת שפת אם. MA בפילוסופיה, בלשנות או אנגלית."). אז במה בעצם עובדים בסופו של דבר כל אלה שלמדו בלשנות? המשך »

2 תגובות 

לשמוע מה שרוצים לשמוע

לפני שתקראו את ההמשך, הקשיבו קודם כל כמה פעמים להקלטה הקצרצרה הזו. מה נאמר שם?

מסתבר שהקטע הזה עורר סערה קטנה בארה"ב. מדובר בספר אינטרקטיבי לילדים, שבו לחיצה על כל אחד מהכפתורים משמיעה קטע אודיו קצר. אחד הכפתורים משמיע מה שאמור להיות קולה של אחת הדמויות, שאומרת "Uh oh, who has to go?". אלא שבשל איכות ההקלטה הגרועה, יש מי ששמע דווקא "Uh oh, who wants to die?". יחי ההבדל. המשך »

2 תגובות 

גוגל ככלי למחקר בלשני?

פוסט באתר Language Log השבוע התייחס למגבלות של שימוש בגוגל ככלי עזר למחקר בלשני. ההסתייגות שם (המבוססת בעיקר על הפוסט הזה והזה) היא בעיקר מחוסר האמינות של המידע הכמותי המתקבל מתוצאות חיפוש בגוגל, המוביל לכך שלא ניתן להשתמש בחיפושים בגוגל כדי להסיק מסקנות חד-משמעיות בדבר התדירות היחסית של ביטויים או צירופים שונים. למעשה, זוהי רק אחת מתוך מספר רב של מגבלות שמהן סובל השימוש בגוגל ככלי למחקר בלשני; בניגוד להסתייגות מאמינות המידע הכמותי, מגבלות אחרות רלוונטיות גם למי שהמחקר שלו על השפה אינו כמותי. המשך »

אין תגובות 

רכישת שפה ולמידת שפה אוטומטית

בעיתון "הארץ" התפרסמה אתמול ידיעה על צוות חוקרים מאוניברסיטת תל-אביב ומאוניברסיטת קורנל שפיתחו מערכת ממוחשבת המסוגלת ללמוד שפה טבעית ללא הדרכה וללא "דקדוק מולד", רק על סמך חשיפה לקורפוס של טכסטים. השאלה שמתעוררת היא האם דבר זה מערער את היסודות שעליהם מושתתת השערת המולדות המקובלת על-ידי חלק גדול מהבלשנים הגנרטיביים. המשך »

10 תגובות