הודעות לעיתונות
הקמת איגוד חברות לטכנולוגיות שפת אנוש (NLP) בעברית ובערבית
-
תאריך פרסום
22.09.2020
תקציב התכנית לשלוש השנים הראשונות: כ-7.5 מיליון ₪
.jpg)
משרד הדיגיטל הלאומי בשיתוף רשות החדשנות, אישרו את הקמתו של איגוד חברות לטכנולוגיות שפת אנוש (NLP – Natural Language Processing), שיסייע בקידום הבנת השפה העברית והשפה הערבית במערכות ממוחשבות. בין החברות באיגוד: רפאל, Ginger Software, Melingo, AudioCodes ואחרות.
אשר ביטון, מנכ"ל משרד הדיגיטל הלאומי: "הסקטור הציבורי עוסק ביום יום במידע בעברית ובערבית שחלקו הגדול אינו מובנה. אחד מהאתגרים הגדולים בדיגיטציה של השירותים הציבוריים הינה לאפשר יעילות תפעולית, זמינה לציבור ללא עלות, לצד פריון גבוה".
אביב זאבי, סמנכ"ל תשתית טכנולוגית ברשות החדשנות: "האיגוד שהקמנו השבוע אמור לתת לתעשייה להוביל את הגדרות הצרכים ולסייע בסגירת פערים טכנולוגים שיאפשרו לעשות שימוש במאגרי מידע לא מובנים בעברית ולהוציא על בסיסם תובנות שישמשו מנוף למוצרים ושירותים לחברות ישראליות".
איגוד החברות לטכנולוגיות שפת אנוש (NLP), בו תשקיע רשות החדשנות כ-7.5 מיליון ₪ בשלוש השנים הקרובות, קם לאור איכות נמוכה ובלתי מספקת של זיהוי השפות עברית וערבית במערכות ממוחשבות מסוגים שונים בהשוואה לזיהוי הדיבור בשפות אחרות. הסיבה לאיכות הירודה והקושי בפיתוח טמונה בעובדה שעברית וערבית הינן שפות שמיות המאתגרות וקשות יותר לניתוח, וכך איכות ההבנה והזיהוי של שפת אנוש בעברית וערבית הינה נמוכה יותר ומהווה חסם ליישום ומימוש שירותים מתקדמים ואיכותיים.
מטרת האיגוד תהיה לייצר תשתית מו"פ שתאפשר בסיס אמפירי לא רק לזיהוי האלמנטים והדגמים המבניים המרכיבים את המערכת הלשונית, אלא גם למיפוי האופן שבו משתמשים במערכות האלו. אלו מאפיינים תחביריים, סמנטיים ומורפולוגים לצורכי מו"פ בתחום עיבוד שפה טבעית. על מנת לאפשר שיפורים מגוונים ורחבים ככל הניתן, הקורפוסים המתויגים בעברית ובערבית יהיו מתחומים מגוונים, בהם: חדשות, ארכיונים, סרטים, ספרים, מאמרים, שירות לקוחות, שידורי רדיו וטלוויזיה מתומללים ועוד ממגזרי תעשיה שונים.
נוסף על כך, יבחן האיגוד את האפשרות להתאמת כלי צד ג' (Open Source) ו/או יפותחו כלים בקוד פתוח לבדיקות ושיפור איכות הבנת השפות עברית וערבית ע"י מערכות מחשוב שונות. באמצעות תשתית זו, ניתן יהיה לשפר ולהגביר את איכות הפתרונות השונים לזיהוי שפת אנוש בשפות עברית וערבית. התשתית שיקים האיגוד תוקם על גבי ענן ותאפשר שיתוף מאובטח של הקורפוסים והרצת מערכת ניהול ואלגוריתמים לכל השותפים באיגוד.
קבוצת המשתמשים שתבצע שימוש בתוצרי הארגון תורכב הן מחברי האיגוד, המגיעים מתחומים שונים בתעשייה הישראלית, ואלו יבצעו שימוש בתשתית לצורך פיתוח שירותים, יישומים ותוכנות לשיפור שירות לקוחות, ניהול, ידע, קבלת החלטות ומימוש יישומים מתקדמים הדורשים הבנת שפה טבעית בעברית ובערבית.
בין החברות והמשתתפים בארגון נמצא חברות המפתחות פתרונות תשתית (מחקר ופיתוח בתחומי הבנת שפה וחברות המפתחות אלגוריתמים המשמשים אבני בניין ליישומים שונים בתחום); וכמובן חברות העוסקות בפיתוח שירותים ומוצרים בתחומי הבנת שפה. הצרכנים הפוטנציאליים למוצרים ושירותים מבוססי טכנולוגיות זיהוי שפה טבעית מגיעים ממגוון נרחב של מגזרים ושירותים: הייטק, בנקאות, ביטוח, תקשורת, בריאות, חינוך, תיירות, השמה, משרדים ממשלתיים, מערכות ביטחון ומודיעין ועוד.
רשימת החברות והגופים שחברים באיגוד:
תיאור הפעילות | שם החברה | 'מס |
AudioCodes Ltd. is a vendor of advanced voice networking and media processing solutions for the digital workplace. | AudioCodes | 1 |
רפאל עוסקת בפיתוח אמצעי לחימה שונים. החברה עוסקת -במו"פ הקשור לעיבוד שפה טבעית ו-Speech Recognition | Rafael | 2 |
קבוצת הבנק פועלת בישראל במכלול תחומי הבנקאות השונים ובפעילות משיקה בשוק ההון, באמצעות שלוש חטיבות מרכזיות: החטיבה העסקית, החטיבה הקמעונאית וחטיבת שווקים פיננסיים ובנקאות בינלאומית. | Bank Hapoalim | 3 |
בייסיס טקנולוג׳י ישראל (BTI) הוקמה ב – 2014 כחברת בת של חברת בייסיס טקנולוג׳י שהוקמה לפני 22 שנים בארה״ב. BTI משמשת כגוף מחקר ופיתוח של כלל מוצרי חברת בייסיס טקנולוג׳י, ולה זרוע מכירות ותמיכה בישראל.חברת בייסיס מפתחת כלים לניתוח שפה טבעית במגוון רחב של שפות לרמות ניתוח שונות, כגון ניתוח מורפולוגי וחילוץ ישויות. ל-BTI ניסיון רב בפיתוח כלי ניתוח שפה תוך שימוש באלגוריתמי למידת מכונה, בהתבסס על מידע מתויג. לדוגמא, בעת כתיבת מילים אלו, BTI מסיימת בהצלחה פרויקט ארוך לתיוג 300 כתבות כלכליות בעברית, לצורך חילוץ ישויות ואימון מודלים סטטיסטיים למשימת החילוץ.ה-IP שנוצר במסגרת פעילות החברה הישראלית שייך לחברה העולמית, אולם עברו אישורים לתמיכת בפרויקט של הרשות במסגרת KORIL וה-IP של פרויקט זה שייך לחברה הישראלית. | Basis | 4 |
KD מתמחה בפיתוח תכנים לשוניים לשלל שפות, במקור מילונים לימודיים ורב-לשוניים, משתפת פעולה עם התעשייה ואקדמיה ברחבי העולם, ומשתתפת בפרויקטים של האיחוד האירופי (קונסורציומים במסגרת 2020H ורשתות מחקר במסגרת COST).בעשור האחרון החברה הרחיבה את פעילותה בשילוב עיבוד שפה טבעית, ועברה להתמקד באינטראופרביליות (interoperability) בין מערכות בסיסי נתונים לשוניים ומגוון מערכות של טכנולוגיות שפה, לימוד מכונה וכו', למשל תוך הטמעת מתודולוגיות של קישור נתונים (Linked Data) וטכנולוגיות ווב סמנטי (Semantic Web), בדגש על העצמת תהליכים אוטומטיים, כגון ליצירת קורפוסים ופיתוח כלים לניתוחם. | K-Dictionary | 5 |
החברה פעילה מ 2003 בתחום עיבוד שפה טבעית בעברית ועוסקת בניתוח קורות חיים של מועמדים לעבודה ומספקת מערכת לניהול מאגר מועמדים לעבודה עם חיפוש סמנטי מדויק לאיתור מועמדים, בין לקוחות החברה כימיקלים לישראל, דלק, מגדל שוקי הון, רנואר, אמן, טלדור ועוד. | Infoneto | 6 |
TSG IT Advanced Systems Ltd. (TSG) is a global provider of C4ISTAR, Intelligence, HLS and Cyber Security solutions with a track record of over 50 years in successful development, integration and delivery of mission-critical, turnkey solutions to various military forces, governmental agencies and corporations worldwide. | TSG | 7 |
החברה עוסקת בין השאר בניתוח מערכות מבוססות למידת מכונה וניתוח דיבור (Speech Recognition) בישראל | Intel | 8 |
וואלה אתר חדשות ישראלי, המופעל על ידי חברת "וואלה! תקשורת" מקבוצת בזק. הוא אחד אתרי האינטרנט הנצפים ביותר בישראל | Walla | 9 |
אתר חדשות ופורטל תכנים ישראלי, הנמנה עם קבוצת ידיעות אחרונות. נכון ליולי 2020, Ynet הוא אתר החדשות הנצפה ביותר בישראל | Ynet | 10 |
Ginger Software is an Israeli start-up company that has developed language enhancement technology that uses statistical algorithms in conjunction with natural language processing, aiming to improve written communications.Ginger has over 10 years of experience in AI-powered grammar and spell-checking tools. It gathered feedback that allows machine learning to fine-tune the results and to understand what people really want to write even in complex cases, like for people with dyslexia or very poor English. | Ginger Software | 11 |
מלינגו בע”מ, חברת בת של אנציקלופדיה בריטניקה, היא החברה המובילה בישראל במילוני רשת ובמוצרי חיפוש חכמים, והחברה המובילה בעולם בבלשנות חישובית בשפות שמיות. מלינגו מתמחה בפיתוח ושיווק של מוצרים ושירותים המבוססים על יישומי שפה טבעית, בשפות המסובכות ביותר מבחינת מחשוב – העברית והערבית, וכן מציעה החברה פתרונות ייחודיים בשפות שונות, בשווקים הפרטיים והמוסדיים. בין מוצרי החברה: מנועי חיפוש חכמים בעברית, ערבית ופרסית, פתרונות ייחודיים לאחזור מידע בסביבה ארגונית, מילונים מקוונים ומערכות להקראה אוטומטית של טקסט בעברית. המוצרים מיועדים לרשת האינטרנט, לרשתות אינטרה-נט פנימיות בארגונים, לרשתות טלפוניה ותקשורת סלולארית. מלינגו היא בעלת האתרים ‘מורפיקס’ – מילון עברי-אנגלי-עברי חינמי, ‘רב-מילים’ – המילון העברי המקיף ביותר ברשת, ‘נקדן מורפיקס’ – אתר לניקוד אוטומטי, ‘קולפיקס’- תוכנה להקראת טקסט, וכן מילונים דו-לשוניים בשפות נוספות. | Melingo | 12 |
ספקי תוכן לא מובנה:
• וואלה
• Ynet
• תאגיד כאן
• גלי צה״ל
• ארכיון הכנסת
• דיקטה
• מרכז ארצי לבחינות ולהערכה
• משרד הבריאות – פרויקט תמנע
• מרכז המחקר של קופת חולים מכבי
• הארץ
• בנק הפועלים
חוקרים מהאקדמיה:
• פרופסור רעות צרפתי, אוניברסיטת בר-אילן
• פרופסור אלון איתי, הטכניון
• פרופסור שולי וינטנר, אוניברסיטת חיפה
• אפי לוי, האוניברסיטה העברית
• שי פיין, המרכז הבינתחומי הרצליה