תקציר

 

לדף הראשי
תקציר
החיבור כולו
המילון
טקסטים עבריים
הדגמת המנתח הצורני
התוכנה

עבודה זו מתמודדת עם מציאת ניתוח צורני (מורפולוגי) נכון בשפה העברית באמצעות המחשב, לטקסט נתון בעברית ללא ניקוד.

למשל, עבור המשפט:

אדם שלו שומר על קור הרוח שלו

המחשב צריך לדעת כי:

                        ·המחרוזת "אדם" היא שם-עצם זכר יחיד,

                        ·המחרוזת "שלו" (הראשונה) היא תואר זכר יחיד,

                        ·המחרוזת "שומר" היא פועל בינוני זכר יחיד,

                        ·המחרוזת "על" היא מילת יחס,

                        ·המחרוזת "קור" היא שם-עצם נסמך זכר יחיד,

                        ·המחרוזת "הרוח" היא "ה" הידיעה + "רוח", כלומר שם-עצם מיודע נקבה יחידה,

                        ·והמחרוזת "שלו" (השניה) היא מילת-יחס "של" עם כינוי-שייכות לזכר יחיד נסתר.

ניתן לראות כבר בדוגמה פשוטה זו שמשימת הניתוח הינה מורכבת למדי. בכתיב עברי לא-מנוקד חלק גדול מהמחרוזות הן רב-משמעיות, והניתוח הצורני הנכון שלהן תלוי בהקשר שבו הן מופיעות (כמו המחרוזת "שלו" מהדוגמה).

יש להדגיש, שעבור כל מחרוזת נתונה קל יחסית למצוא בעזרת מחשב את  כל הניתוחים הצורניים האפשריים שלה. למשל, בהינתן המחרוזת "הגר" ניתו למצוא את הניתוח כשם-פרטי-נקבה hagar, את הניתוח כשם-עצם-זכר-מיודע ha-ger, את הניתוח כפועל-בינוני עם כינוי זיקה ha-gar, וכו'. בעיה זו כבר נפתרה על-ידי חוקרים שונים. בעיה קשה יותר היא מציאת הניתוח הצורני  הנכון בהקשר מסויים. כך למשל, במשפט: "הגר הלך הביתה" המחרוזת "הגר" היא שם-עצם-זכר-מיודע (ha-ger), אבל במשפט הכמעט-זהה "הגר הלכה הביתה" המחרוזת "הגר" היא שם-פרטי-נקבה (hagar).

ניתוח צורני נכון הוא השלב הבסיסי במשימות מורכבות יותר, כגון תרגום או ניקוד. קל לראות, למשל, בדוגמה מראש העמוד, שהמחשב יוכל לתרגם בצורה נכונה את המחרוזת "שלו" (לאנגלית או לכל שפה אחרת), וגם לנקד אותה נכון, רק אם יזהה את הניתוח הצורני הנכון שלה.

בשנים האחרונות פותחו מספר מערכות מסחריות שנועדו לפתור בעיות אלו (נקדן, תרגומון, ועוד).  מערכות אלו כוללות יחידה לניתוח צורני. הניתוח הצורני בהן אינו מושלם – המערכת מצליחה לנתח נכון רק כ95% מהמלים, אך לא את כולן. מפתחי מערכות אלו פועלים בהתמדה לשיפור אחוזי הדיוק של המערכות שלהם.

בעבודה זו נבדקה היעילות של שיטות הסתברותיות לניתוח צורני בעברית. לשם כך נכתבה תוכנה שקוראת טקסטים עבריים מנותחים ולא-מנותחים, ומבצעת ניתוח צורני בשלושה שלבים:

  1.  שלב המחרוזת: בשלב זה התוכנה מוצאת עבור כל מחרוזת את הניתוח הסביר ביותר עבורה, ללא תלות בהקשר שבו היא מופיעה, ע"פ הטקסטים הנתונים. לאחר שלב זה כ- 83% מהמחרוזות מקבלות את הניתוח הנכון שלהן.

  2.  שלב הזוג: בשלב זה התוכנה מוצאת "פקודות תיקון", שמתקנות את הניתוח של כל מחרוזת ע"פ הניתוחים של המחרוזת שלפניה ושל המחרוזת שאחריה. פקודות התיקון נלמדות באופן אוטומטי, באלגוריתם המשתמש בטקסט מנותח קטן.  לאחר שלב זה כ- 94% מהמחרוזות מקבלות את הניתוח הנכון שלהן.

  3.  שלב המשפט: בשלב זה התוכנה מבצעת ניתוח תחבירי שטחי של כל המשפט, ונעזרת בו כדי לשפר את הדיוק של הניתוח שהושג בשלב 2. לאחר שלב זה כ- 96.5% מהמחרוזות מקבלות את הניתוח הנכון שלהן.

הדיוק שהושג הוא טוב יותר מהדיוק המירבי שדווח עד כה עבור בעיית הניתוח הצורני בעברית (95%), והוא מתקרב לדיוק המקובל עבור הבעיה המתאימה בשפה האנגלית - בעיית מציאת-חלקי-הדיבר (tagging) (97%).

מהבדיקות שביצענו עולה, כי יש חשיבות לכל שלושת השלבים: רק כאשר שלושתם מופעלים מתקבל אחוז הדיוק הגבוה ביותר. התוצאות מראות שיש מקום לשילוב בין שיטות הסתברותיות לבין שיטות דקדוקיות בשלבים השונים של תהליך הניתוח הצורני.

 


Erel Segal

Probabilistic Morphological Analyzer for Hebrew Undotted Texts

Supervisor: Prof. A. Itai

 

abstract

Morphological analysis of words in a text is the first stage of most natural language applications. Due to the rich morphology of the Hebrew language and the inadequacy of the undotted script which results in a great degree of morphological ambiguity, the problem has not yet found a satisfactory solution. We notice that the problem of morphological analysis of Hebrew texts is similar to the well-studied problem of part-of-speech tagging in English, and thus can apply some of the approaches used to solve that problem.

In this work we find the correct morphological analysis by combining probabilistic methods with syntactic analysis. The solution consists of three consecutive phases:

1.    The word phase: In this phase we find all possible morphological analyses of each word in the analyzed text. Then we approximate, for each possible analysis, the probability that it is the correct analysis, without relating to the context of the word. For this purpose we use a small analyzed training corpus and an algorithm that takes advantage of the Hebrew morphology. After approximating the probabilities, we assign each word the analysis with the highest approximated probability.

2.    The pair phase: In this phase we use correction-commands, which correct the analysis of a word according to the previous or to the next word. The correction commands are learned automatically from the same training corpus mentioned above.

3.    The sentence phase: In this phase we use a simple syntactical analyzer to evaluate different alternatives for the analysis of whole sentences. We use a hill-climbing algorithm to find the analysis which best matches both the syntactical information obtained from the syntactical analysis and the probabilistic information obtained from the previous two phases.

Using all these three phases results in a morphological analysis which is correct for about 96% of the words. This result approaches results reported for English probabilistic part-of-speech tagging. It does so by using a very small training corpus - 5000 words only, in contrast to million-word corpora used for English tagging.

The results show that combining probabilistic methods with syntactic information improves the accuracy of morphological analysis.

 

 

 

This page should be viewed using Microsoft Internet Explorer 4+, with  Hebrew support. If you don't have Hebrew support, or don't read Hebrew, you can read a partial  English translation here.

כתובת האתר: http://www.cs.technion.ac.il/~erelsgl/bxi/mcht/tqcir.html

להערות ותגובות: erelsgl @ cs . technion . ac . il