חדשות
מעולם לא הייתה השפה העברית נגישה יותר
-
תאריך פרסום
20.01.2020
רשות התקשוב הממשלתי יזמה פיילוט ליצירת קורפוס מתוייג של עברית בת-זמננו באמצעות האקדמיה ללשון העברית

איך העוזר/ת הקולי/ת שלי מבינ/ה אותי? למה אנחנו מתכוונים כשאנו אומרים "הדלק את האורות בכל הבית", "שלחי הודעה לפלוני", "אני מגיעה לחיפה בעוד 5 דקות", או "תנקה לי רק את המטבח". כדי שהמכונה תוכל לעשות זאת, יש ללמד אותה להבין את השפה האנושית…
רשות התקשוב הממשלתי מפרסמת בימים אלו לראשונה קורפוס מתויג ידני (תיוג 'זהב') של עברית בת-זמננו. זה מאגר טקסטים שבו לכל מילה הצמידה האקדמיה ללשון העברית ניתוח בלשני, והוא בנוי לשמש ללמידת מכונה.
זו סנונית ראשונה במיזם הדיגיטציה של השפה העברית. מטרתו לייצר מסד נתונים איכותי שיאפשר למכונות מחשוב "להבין" שפה אנושית בשיחה כתובה ומדוברת.
מיזם הדיגיטציה יוביל למהפכה ב"הבנת" המכונה את השפה העברית ויפתח שער לשירות בעברית ביישומים ובכלים רבים. כיום קיים פער ניכר ביכולות הכלים המבוססים על עיבוד שפה טבעית בין העברית לבין האנגלית, הנמצאת במוקד המחקר. למשל אם תנסו להשתמש בעברית ב-Echo של אמזון,Google Home של גוגל או HomePod של אפל, לא תקבלו מענה ברמה שהורגלתם אליה בשימוש באנגלית. מכשירים המבינים דיבור חופשי נמכרים בעולם במאות מיליונים, והשימושים בהם הולכים וגוברים בין השאר לביצוע פעולות תוך כדי נהיגה או בזמן שהידיים או העיניים עסוקות בדבר אחר. במיוחד יש בהם פוטנציאל לשיפור איכות החיים לאנשים עם מוגבלויות. מלבד "שיחות" עם מכשירים, לעיבוד שפה טבעית יישומים מרחיקי לכת כגון תרגום מכונה, כריית מידע רלוונטי מתוך טקסט, ניתוח כוונות ורגשות מתוך טקסט, סיווג טקסטים, תקצירים אוטומטיים.
הערך לדוברי העברית הוא עצום כי ייפתחו בפניהם אפשרויות רבות שכיום זמינות רק בשפות זרות, ויוכלו בעתיד להתבסס על העברית המדוברת בת-זמננו.
במיזם פיילוט (חלוץ) שהוגדר ברשות התקשוב הממשלתי ונעשה באקדמיה ללשון העברית, נבחן התקן למבנה התיוג, ולאחר מכן תויגו מאות משפטים, הן בשיח מובנה הן בשפה חופשית, שנלקחו מעולם השירות הממשלתי לציבור.
אנשי מקצוע באקדמיה ללשון העברית תייגו את המשפטים תיוג מורפולוגי ידני בתקן UD(תקן בין-לאומי המאפשר שימוש על ידי אלגוריתמים לעיבוד שפה טבעית).
כדי להבטיח התאמה בין עולם התיוג המורפולוגי לבין עולם הניתוח התחבירי הממוחשב, שולבה בפרויקט מעבדת ה-NLP של פרופ' רעות צרפתי באוניברסיטת בר-אילן, ונעשה שם תיוג תחבירי אוטומטי על בסיס התיוג המורפולוגי הידני.
התוצר פורסם ברישיון קוד פתוח לשימוש הציבור באתר Data.gov.il וזו הפעם הראשונה שתוצר תיוג בעברית בת-זמננו וביוזמה ממשלתית, מפורסם לשימוש חופשי לציבור, למחקר אקדמי ולחברות מסחריות. תוצר החלוץ ייבדק כעת על ידי הכנסתו ללמידה במכונות של עיבוד שפה טבעית ובינה מלאכותית (AI/(NLP. התקן יטויב בהתאם למשוב שיתקבל. אפשר לשלוח התייחסויות לכתובת [email protected]
הוקרה מיוחדת של חבר השופטים, ניתנה לפרוייקט קורפוס השפה העברית בכנס הלשכה לטכנולוגיות המידע בישראל ב-13.1.2021.
רקע
כדי שמחשב, מכשיר סלולרי, שואב אבק דיגיטלי או כל כלי חכם אחר יבין אותנו, יש ללמד אותו להבין את השפה האנושית. לשם כך קיימים שני פתרונות עקרוניים:
- יצירת עץ החלטות ולימוד המחשב שלמשפט מסוים יש כוונה ומשמעות ספציפית. איך עושים זאת? יוצרים טבלה שבה מופיע המשפט ולצידו הכוונה והמשמעות. הבעיה בשיטה זו היא שמספר המשפטים האפשריים הוא בלתי מוגבל, והטבלה בהכרח מצומצמת.
כיום משתמשים בשיטה זו כאשר תחום השפה הוא צר ומוגדר היטב כדוגמת Bot שיחה לפתיחת חשבון או לקבלת שירות מסוים. - יצירת מאגר טקסטים מתויגים. איך עושים זאת? המחשב מוזן באוסף דוגמאות של משפטים שנותחו בידי אדם. המשפטים מפורקים למרכיביהם ומתויגים על ידי בלשנים כך שמוגדרות ישויות במשפט, לדוגמה: את המילה 'חיפה' ניתן לקרוא כשמה של עיר בישראל, ובהקשר אחר כאדם ש'חיפה' על חברו. בעבודה זו מוגדרים הערך המילוני, חלקי הדיבר (פעלים, שמות וכו') וישויות תחביריות (נושא המשפט וכו'). לאחר שהוזנו משפטים רבים כדוגמת משפט זה, התוכנה המתאימה תוכל להתחיל ולתת מענה גם למשפטים שלא הוזנו אליה קודם לכן.
מיזמים של מאגרי טקסטים מתויגים כגון אלו כבר בוצעו בעבר בשפות בעלות אוכלוסיית דוברים גדולה, אך בעברית נעשתה עבודה מעטה וטרם פורסמו תשתיות נרחבות בשפה העברית בת-זמננו לשימוש חופשי.
מבנה העברית והכתיב שלה שונים מאוד משפות שבהן יש כיום מודלים מפותחים לעיבוד שפה טבעית, ולכן אי אפשר להשתמש במודלים הקיימים באופן ישיר לקבלת תוצאות טובות.
מיזם החלוץ שהסתיים כעת הוא התחלה של מיזם הדיגיטציה של השפה העברית שמטרתו לייצר מאגר טקסטים מתויגים ללמידת מכונה כדי להגיע ל"הבנת" העברית על ידי מכונות ומחשבים.
לפרטים נוספים:
קרן קציר שטיבל, מנהלת השיווק ודוברת רשות התקשוב הממשלתי,
[email protected]