|
|
![]() ![]() ![]() ![]() ![]() ![]()
|
עבודה זו מתמודדת עם מציאת ניתוח צורני (מורפולוגי) נכון בשפה העברית באמצעות המחשב, לטקסט נתון בעברית ללא ניקוד. למשל, עבור המשפט: אדם שלו שומר על קור הרוח שלו המחשב צריך לדעת כי: ·המחרוזת "אדם" היא שם-עצם זכר יחיד, ·המחרוזת "שלו" (הראשונה) היא תואר זכר יחיד, ·המחרוזת "שומר" היא פועל בינוני זכר יחיד, ·המחרוזת "על" היא מילת יחס, ·המחרוזת "קור" היא שם-עצם נסמך זכר יחיד, ·המחרוזת "הרוח" היא "ה" הידיעה + "רוח", כלומר שם-עצם מיודע נקבה יחידה, ·והמחרוזת "שלו" (השניה) היא מילת-יחס "של" עם כינוי-שייכות לזכר יחיד נסתר. ניתן לראות כבר בדוגמה פשוטה זו שמשימת הניתוח הינה מורכבת למדי. בכתיב עברי לא-מנוקד חלק גדול מהמחרוזות הן רב-משמעיות, והניתוח הצורני הנכון שלהן תלוי בהקשר שבו הן מופיעות (כמו המחרוזת "שלו" מהדוגמה). יש להדגיש, שעבור כל מחרוזת נתונה קל יחסית למצוא בעזרת מחשב את כל הניתוחים הצורניים האפשריים שלה. למשל, בהינתן המחרוזת "הגר" ניתו למצוא את הניתוח כשם-פרטי-נקבה hagar, את הניתוח כשם-עצם-זכר-מיודע ha-ger, את הניתוח כפועל-בינוני עם כינוי זיקה ha-gar, וכו'. בעיה זו כבר נפתרה על-ידי חוקרים שונים. בעיה קשה יותר היא מציאת הניתוח הצורני הנכון בהקשר מסויים. כך למשל, במשפט: "הגר הלך הביתה" המחרוזת "הגר" היא שם-עצם-זכר-מיודע (ha-ger), אבל במשפט הכמעט-זהה "הגר הלכה הביתה" המחרוזת "הגר" היא שם-פרטי-נקבה (hagar). ניתוח צורני נכון הוא השלב הבסיסי במשימות מורכבות יותר, כגון תרגום או ניקוד. קל לראות, למשל, בדוגמה מראש העמוד, שהמחשב יוכל לתרגם בצורה נכונה את המחרוזת "שלו" (לאנגלית או לכל שפה אחרת), וגם לנקד אותה נכון, רק אם יזהה את הניתוח הצורני הנכון שלה. בשנים האחרונות פותחו מספר מערכות מסחריות שנועדו לפתור בעיות אלו (נקדן, תרגומון, ועוד). מערכות אלו כוללות יחידה לניתוח צורני. הניתוח הצורני בהן אינו מושלם – המערכת מצליחה לנתח נכון רק כ95% מהמלים, אך לא את כולן. מפתחי מערכות אלו פועלים בהתמדה לשיפור אחוזי הדיוק של המערכות שלהם. בעבודה זו נבדקה היעילות של שיטות הסתברותיות לניתוח צורני בעברית. לשם כך נכתבה תוכנה שקוראת טקסטים עבריים מנותחים ולא-מנותחים, ומבצעת ניתוח צורני בשלושה שלבים: 1. שלב המחרוזת: בשלב זה התוכנה מוצאת עבור כל מחרוזת את הניתוח הסביר ביותר עבורה, ללא תלות בהקשר שבו היא מופיעה, ע"פ הטקסטים הנתונים. לאחר שלב זה כ- 83% מהמחרוזות מקבלות את הניתוח הנכון שלהן. 2. שלב הזוג: בשלב זה התוכנה מוצאת "פקודות תיקון", שמתקנות את הניתוח של כל מחרוזת ע"פ הניתוחים של המחרוזת שלפניה ושל המחרוזת שאחריה. פקודות התיקון נלמדות באופן אוטומטי, באלגוריתם המשתמש בטקסט מנותח קטן. לאחר שלב זה כ- 94% מהמחרוזות מקבלות את הניתוח הנכון שלהן. 3. שלב המשפט: בשלב זה התוכנה מבצעת ניתוח תחבירי שטחי של כל המשפט, ונעזרת בו כדי לשפר את הדיוק של הניתוח שהושג בשלב 2. לאחר שלב זה כ- 96.5% מהמחרוזות מקבלות את הניתוח הנכון שלהן. הדיוק שהושג הוא טוב יותר מהדיוק המירבי שדווח עד כה עבור בעיית הניתוח הצורני בעברית (95%), והוא מתקרב לדיוק המקובל עבור הבעיה המתאימה בשפה האנגלית - בעיית מציאת-חלקי-הדיבר (tagging) (97%). מהבדיקות שביצענו עולה, כי יש חשיבות לכל שלושת השלבים: רק כאשר שלושתם מופעלים מתקבל אחוז הדיוק הגבוה ביותר. התוצאות מראות שיש מקום לשילוב בין שיטות הסתברותיות לבין שיטות דקדוקיות בשלבים השונים של תהליך הניתוח הצורני.
Erel Segal Probabilistic Morphological
Analyzer
for Hebrew Undotted
Texts
Supervisor: Prof. A.
Itai abstract
Morphological analysis of words in a text
is the first stage of most natural language applications. Due to the rich
morphology of the Hebrew language and the inadequacy of the undotted script
which results in a great degree of morphological ambiguity, the problem has not
yet found a satisfactory solution. We notice that the problem of morphological
analysis of Hebrew texts is similar to the well-studied problem of
part-of-speech tagging in English, and thus can apply some of the approaches
used to solve that problem. In this work we find the correct
morphological analysis by combining probabilistic methods with syntactic
analysis. The solution consists of three consecutive
phases: 1. The word phase: In this phase we find all possible
morphological analyses of each word in the analyzed text. Then we approximate,
for each possible analysis, the probability that it is the correct analysis,
without relating to the context of the word. For this purpose we use a small
analyzed training corpus and an algorithm that takes advantage of the Hebrew
morphology. After approximating the probabilities, we assign each word the
analysis with the highest approximated probability. 2. The pair phase: In this phase we use correction-commands,
which correct the analysis of a word according to the previous or to the next
word. The correction commands are learned automatically from the same training
corpus mentioned above. 3. The sentence phase: In this phase we use a simple syntactical
analyzer to evaluate different alternatives for the analysis of whole sentences.
We use a hill-climbing algorithm to find the analysis which best matches both
the syntactical information obtained from the syntactical analysis and the
probabilistic information obtained from the previous two
phases. Using all these three phases results in
a morphological analysis which is correct for about 96% of the words. This
result approaches results reported for English probabilistic part-of-speech tagging.
It does so by using a very small training corpus - 5000 words only, in contrast to
million-word corpora used for English tagging. The results show that combining probabilistic methods with syntactic information improves the accuracy of morphological analysis.
|
This page should be viewed using Microsoft Internet Explorer 4+, with Hebrew support. If you don't have Hebrew support, or don't read Hebrew, you can read a partial English translation here. |
|
כתובת האתר: http://www.cs.technion.ac.il/~erelsgl/bxi/mcht/tqcir.html
להערות ותגובות: erelsgl @ cs . technion . ac . il |