מנוע חיפוש סמנטי: מה זה אומר?

מנוע חיפוש חדש שנחשף לאחרונה, Powerset, מעורר עניין רב בכלי התקשורת, כשהחידוש הגדול שבו הוא היותו "מנוע חיפוש סמנטי". מה זה אומר? מדובר במנוע חיפוש שעושה שימוש בכמות מרשימה של ידע בלשני לשם "הבנה" של הטקסט, דבר שאמור לאפשר חיפוש חכם שחורג מעבר לאיתור מילות המפתח שהקליד המשתמש. במידה ומנוע חיפוש מסוג זה יוכיח את עצמו כשימושי ויעיל יותר ממנועי החיפוש הקיימים, יהווה הדבר הוכחה נוספת לכך שגם למחקר בתחום תיאורטי כמו בלשנות יכול להיות ערך מעשי. בשלב זה ניתן לחפש בעזרת Powerset רק בערכים בשפה האנגלית בויקיפדיה, מה שאמור לספק הדגמה ליכולות של מנוע החיפוש החדש. למען ההגינות, כדאי אולי לציין ש-Powerset איננו מנוע החיפוש הסמנטי הראשון או היחיד; הקדים אותו ביציאה לשוק מנוע חיפוש בשם Hakia, שפועל כבר מזה זמן מה (עם מעט מאד חשיפה תקשורתית).

כמעט כל דיון ביישומים המעשיים האפשריים לידע בלשני מזכיר בצורה זו או אחרת את הרעיון של יצירת מנועי חיפוש "חכמים" יותר תוך שימוש בניתוח בלשני של הטקסטים שבהם מתבצע החיפוש. אלא שבפועל, מנועי החיפוש הפופולריים מיישמים לכל היותר כמות מינימלית של ידע בלשני, בעיקר בתחום הניתוח המורפולוגי. כך, למשל, חיפוש בגוגל של פועל כמו deny עשוי למצוא גם דפים שמכילים הטיות של מילה זו, כמו למשל denied, denying וכו'. אבל הניתוח הבלשני בגוגל נעצר בנקודה זו. המבנה התחבירי של משפטים, למשל, אינו ממלא כל תפקיד בחיפוש; באופן כללי, מנועי החיפוש הקיימים שומרים טקסטים כרצף ליניארי של מילים, ואין להם כל יומרה ל"הבנה" של הטקסט בשום רמה שהיא.

מנוע החיפוש של Powerset, לעומת זאת, מבוסס על ניתוח תחבירי וסמנטי מתקדם של הטקסטים. המודל הדקדוקי שעומד מאחורי מנוע החיפוש הוא Lexical Functional Grammar, או בקיצור LFG, מודל בלשני גנרטיווי שנולד בסוף שנות ה-70 מעבודתם המשותפת של בלשן חישובי בשם רונלד קפלן, שהינו גם אחד המייסדים של Powerset, ובלשנית תיאורטית בשם ג'ואן ברזנן. אין אמנם מידע רשמי על אופן פעולת מנוע החיפוש של Powerset, אך ממידע חלקי שקיים (למשל, העובדה שהם רכשו מ-PARC את הזכויות לשימוש במערכת הניתוח התחבירי XLE, והופעת עובדי Powerset ברשימת המפתחים בפרויקטים Parallel Grammar ו-Parallel Semantics) אפשר להבין שמנוע החיפוש שלהם שואף לבצע ניתוח תחבירי וסמנטי מדויק, על בסיס דקדוק LFG, של הטקסט המאונדקס, מה שמאפשר לא רק חיפוש על בסיס מילות מפתח, אלא חיפוש שמארגן את המידע המאוחזר בצורה אינטיליגנטית. למשל, תוצאות החיפוש "Dave Brubeck" כוללות בין השאר את המידע "composed jazz", שאותו מנוע החיפוש מסיק מהטקסט "jazz composer Dave Brubeck"; כלומר, מהצירוף השמני שבטקסט, מנוע החיפוש מסיק את אמיתות הטענה Dave Brubeck composed jazz. זו רק דוגמא פשוטה, ובהנתן ניתוח תחבירי וסמנטי נכון של הטקסט, האפשרויות להיסקים הן אינסופיות למעשה.

כמובן שהניתוח אינו מושלם. למשל, אותו חיפוש מניב גם את התוצאה התמוהה "Dave Brubeck wrote piece", שמוסקת מהמשפט "Unsquare Dance is an iconic piece written by the American jazz composer Dave Brubeck in 1961". לא קשה מדי לגרום ל-Powerset להגיע לתוצאות מוזרות מסוג זה. מי שרוצה לראות דוגמאות נוספות עשוי להתעניין למשל בביקורת הזו. אבל העובדה שהגרסה הפומבית הראשונה של מנוע החיפוש מניבה גם כמות נאה של תוצאות רלוונטיות, מסוג שמנוע חיפוש קונוונציונלי לא יכול לספק, מראה שמדובר בטכנולוגיה עם פוטנציאל חשוב.

לפי כמות הסיקורים של מנוע החיפוש החדש, הכוללים גם שמועות בדבר רכישה אפשרית של החברה ע"י מיקרוסופט (דבר שאני באופן אישי מקווה שלא ייצא אל הפועל), נראה שמדובר בלהיט. ההשלכות המעשיות עבור תחום הבלשנות עשויות להיות משמעותיות. בכתבה ב-news.com, מצוטט אחד הבכירים ב-Powerset כמנבא גידול חד בהשקעות בתחום הטכנולוגיה הסמנטית והבלשנית, וצופה ביקוש רב לאנשים העוסקים בתחום זה. אולי עוד מוקדם לצפות שנראה את מדור הדרושים בעיתוני סוף השבוע מלא בהצעות עבודה מפתות לבלשנים, אבל בהחלט יש כאן הדגמה חשובה לכך שגם ידע תיאורטי בתחום כמו בלשנות יכול להפוך ברבות הימים לבעל ערך מעשי, דבר שאי-אפשר לזלזל בו בעידן שבו כל הקיום של המחקר האקדמי (ובעיקר במדעי הרוח) כפוף לדעתם של מקבלי החלטות שעבורם הכל נמדד במונחי כדאיות כלכלית.

ולמי שרוצה הדגמה משעשעת לכך ש-Powerset אכן לוקחים ברצינות את נושא הניתוח התחבירי של הטקסט, מומלץ לקרוא את הפוסט בבלוג שלהם שבו הם דנים בניתוח דברי החוכמה של מיס דרום קרוליינה בנושא.. הממ.. משהו, ובעיקר להעיף מבט בעץ הגזירה שמערכת ה-XLE יצרה עבורם (לא מומלץ לבעלי לב חלש, או לסטודנטים בקורס מבוא לתחביר).

9 תגובות »

  1. גם-שם » מה נשתנה כתב(ה),

    מאי 18, 2008 @ 8:13

    […] כאן « לא כך בישראל […]

  2. עירא כתב(ה),

    מאי 18, 2008 @ 9:03

    רק דבר אחד לא הבנתי: "הוכחה נוספת לכך שגם למחקר בתחום תיאורטי כמו בלשנות יכול להיות ערך מעשי", מי אי פעם פקפק? בלשנות גנרטיבית משמשת ביישומים ממוחשבים שונים, כולל מערכות תשובה אוטומטיות בטלפונים של מרכזי שירות, מערכות האזנה לתפיסת ציטוטים חשובים למערכות ביון (כל אלו בצירוף עם מערכות מתוחכמות נוספות של speech to text) ועוד מקומות, ולבסוף צופים שממשק המשתמש שלנו עם מכשירים ביתיים יהיה בדיבור. השוק מלא במחקר ופיתוח כלכליים לחלוטין בנושא.

  3. גבי כתב(ה),

    מאי 18, 2008 @ 9:25

    עירא, שים לב קודם כל שהשתמשתי במילה "נוספת"…
    אבל מעבר לכך, מה שלמעשה חשוב במקרה הנוכחי הוא שמדובר במערכת עם חשיפה גדולה לציבור הרחב, שבניגוד ליישומים כמו אלה שציינת, גם מדגישה במפורש את העניין הבלשני בכל מערכת יחסי הציבור שלה. לכן, נכון אולי שמי שעוסק בתחום יודע שגם במערכות תשובה אוטומטית משולב ידע בלשני, אבל זה לא משהו שהמשתמש הממוצע מודע לו. מה ש-Powerset מחדש כאן, מעבר לחידוש הטכנולוגי בתחום מנועי החיפוש, הוא שהוא מפנה הרבה תשומת לב ציבורית לנושא הבלשני. מי שמכיר קצת את המצב העגום של עולם האקדמיה כיום יודע שמעבר להישגים מדעיים, כל תחום מחקר חייב גם יחסי ציבור טובים.
    ומעבר לכך, תהיה בטוח שיש, ותמיד יהיה, מי שיפקפק…

  4. אורן כתב(ה),

    מאי 26, 2008 @ 10:24

    הרבה אנשים כבר משתעשעים די הרבה זמן בחיפוש סמנטי. אני חושב שפוורסט פשוט החליטו לתת משקל מאוד גדול לשיווק ולמיתוג של עצמם, כמו למשל להיות הספונסרים הראשיים של כנסים ביחד עם גוגל – מין הצהרת כוונות עם פרופיל מאוד גבוה.
    בינתיים אני לא חושב שהם מספקים את הסחורה. ממה שקצת שיחקתי עם המנוע ששוחרר התוצאות די טריוויאליות. גם מהדמו ששוחרר לפני חצי שנה (powerLabs) לא ממש נפלתי אבל עוד לא היה לי זמן לשחק עם זה לעומק. האמת שכבר כמה חודשים אני מתכנן לכתוב עליהם ופשוט לא מוצא זמן, אז תודה לך.

    אגב, יש גם חברה ישראלית עם יומרות גדולות בתחום: linguistic agents.

  5. גבי כתב(ה),

    מאי 26, 2008 @ 20:06

    אורן- אני מסכים איתך שבשלב זה לפחות, powerset עוד רחוקים מלממש את ההבטחה, אבל צריך לחכות ולראות לאן זה יתפתח.
    מעבר ליחסי ציבור (שבהם הם טובים מאד), דבר אחד שמייחד אותם (ומעניין במיוחד בעיני) הוא המקום המרכזי שיש אצלם לידע שצמח (בין השאר) במסגרת של מחקר אקדמי; השילוב של ידע וטכנולוגיות שנבנות כבר שנים בקהילת ה-LFG (שרובה מפוזר בין אוניברסיטאות ברחבי העולם), ודמויות מפתח כמו רון קפלן, הוא לא דבר נפוץ (למעשה, אני לא חושב שנתקלתי אי פעם בעבר בחברת טכנולוגיה משמעותית שאימצה כ"כ ברצינות משהו או מישהו מרכזי מתחום הבלשנות).

    לגבי linguistic agents: כבר לפני כמה שנים שמעתי עליהם, ומכל המידע שקראתי עליהם לא הצלחתי להחליט אם מדובר במשהו אמיתי או בסתם שרלטנים שמפריחים באוויר מילות מפתח מרשימות בלי כיסוי. מכיוון שאין לי שום מידע ממשי מה בעצם הם עושים, אני לא יכול לחוות דיעה.

  6. ישראל כתב(ה),

    יוני 1, 2008 @ 6:15

    שלום גבי,
    ראשית האתר מאד יפה ומושקע.
    שנית, רציתי להתייעץ איתך לגבי משהו שאני עובד עליו. אני עובד בחברת הייטק ואנו כרגע מנסים לפתח תוכנה שתזהה טקסטים ותדע לאבחן אותם בצורה שלילית או חיובית מבחינת ניתוח האופי של הכותב עצמו. ז"א, מתי הכותב מביע רגשות חיוביות בכתיבת הטקסט או להפך. ראיתי את הפיתוח של פאוארסט ואני מתרשם שזה אפשרי אם כי לא מושלם. אשמח אם תפנה אותי למקורות נוספים כגון מאמרים, אתרים העוסקים בכך.
    מצפה לקרוא את תגובתך
    ישראל

  7. אורן כתב(ה),

    יוני 1, 2008 @ 17:12

    ישראל,
    יש מחקר ענף בתחום.
    חפש בגוגל (או בגוגל סקולר) את הביטויים:
    sentiment analysis
    sentiment polarity
    sentiment opinion
    opinion polarity
    opinion extraction
    opinion summarization
    ותוכל לקבל תמונה של מה שקורה בחזית המחקר.
    לחלופין פשוט תחפש את המונחים האלו באנתולוגיות של הכנסים המובילים של עיבוד שפה (WWW, ACL, SIGIR).

    גבי –
    אני שותף לתחושה האמביוולנטית לגבי LA. פעם הם שלחו לי דמו של חצי מוצר ובכלל לא היה מספק אבל אז הם טענו שזה דמו מאוד מוגבל שאמור לשמש רק כהוכחת היתכנות (שבעיניי נכשלה). מצד שני – אני מזכה אותם מחמת הספק.

  8. גבי כתב(ה),

    יוני 2, 2008 @ 20:48

    ישראל- לא נראה לי שיש לי מה להוסיף מעבר למה שאורן כתב (שזה הרבה יותר ממה שאני יודע על התחום הספציפי הזה).

  9. יגעת ומצאת! » ארכיון » ארבעת הגדולים בעברית! כתב(ה),

    נובמבר 1, 2009 @ 1:09

    […] מנוע החיפוש Ask  הציג מקבץ יפה של קישורים בעמוד הראשון של התוצאות, כמו תולדות ירושלים על פני  ציר הזמן  ועוד כמה עובדות בסיסיות למי שרוצה להתחיל מחקר על תולדות ירושלים. הטשטוש של המנוע בין קישורי התוצאות לקישורי הפרסומות גרם לי לפספס את הקישור הראשון בעמוד התוצאות (ויקיפדיה כמובן).  התוצאות בעמוד השני, לעומת זאת, היו מאכזבות ביותר. למעשה, רק קישור אחד התאים באמת לחיפוש. קישור נוסף אמנם כלל את המלים ‘היסטוריה’ ו’ירושלים’, אבל הכותב השתמש בביטוי ‘אירוע היסטורי’ בהגזמה. מכאן שלמנוע החיפוש יש עוד מה ללמוד בתחום החיפוש הסמנטי. […]

RSS feed for comments on this post · TrackBack URI

הוספת תגובה