פורמט הניתוח הצורני

 

לדף הראשי
התעתיק
פורמט הניתוח הצורני

פתיחה

קבצי הניתוח הצורני הם קבצי-טקסט (ASCII). הם כתובים בפורמט שנועד לענות על שתי דרישות סותרות:

  • מצד אחד - לדאוג שקבצי הניתוח יהיו קטנים יחסית, ושלמחשב יהיה נוח לקרוא ולכתוב אותם.
  • מצד שני - לדאוג שגם קוראים אנושיים יוכלו לקרוא אותם, לצורך ניפוי שגיאות.

הפורמט שהתקבל הוא פשרה בין שתי דרישות אלו: הוא ניתן לקריאה ע"י קוראים אנושיים, אך לא בקלות. מסמך זה נועד לסייע לקוראים להבין את הפורמט.

דוגמאות

נתבונן במילים הראשונות מתוך קובץ המקור -- harc20.txt:

&$RWT AN$IM MGI&IM MTAILND LI$RAL K$HM NR$MIM KMTNDBIM , AK LM&$H ...

המילים האלו הן התעתיק הלטיני של המשפט העברי:

"עשרות אנשים מגיעים מתאילנד לישראל כשהם נרשמים כמתנדבים, אך למעשה..."

כעת נתבונן במילים הראשונות מתוך קובץ הניתוח harc20.to:

&$R*M**LZRS*** AI$*E**LZRF*** HGI&*P*ZRAH TAILND*p*mZ I$RAL*p*lB HWA*gK*LZR3 NR$M*P*ZRAH MTNDB*E*kLZRF*** ,*x* AK*x* LM&$H*t* ...


כל 'מילה' בקובץ הניתוח מייצגת את הניתוח הצורני של המילה המקבילה לה בקובץ המקור. למשל: המילה הראשונה בקובץ המקור היא

&$RWT (עשרות).

הניתוח שלה נמצא במילה הראשונה של קובץ הניתוח:

&$R*M**LZRS***

הניתוח מורכב משדות, המסודרים משמאל לימין. השדה הראשון הוא הערך המילוני של המילה (במקרה זה: "עשר"), ושאר השדות מורכבים כל אחד מתו אחד בדיוק. הטבלה הבאה מפרטת את משמעות השדות:

השדה המשמעות ערכים חוקיים נוספים
&$R ערך-מילוני = "עשר" מפורטים למטה
* אין וו-חיבור מפורטים למטה
M חלק-דיבר = שם-מספר מפורטים למטה
* אין תחילית-שעבוד מפורטים למטה
* אין אות-יחס מפורטים למטה
L לא-מיודע מפורטים למטה
Z מין = זכר מפורטים למטה
R מספר = רבים מפורטים למטה
S מצב-סמיכות = נסמך מפורטים למטה
* מין כינוי-קנין = אין מפורטים למטה
* מספר כינוי-קנין = אין

מפורטים למטה

* גוף כינוי-קנין = אין מפורטים למטה

כלומר: המילה "עשרות" שייכת לערך המילוני "עשר", שהוא שם-מספר; אין לפניה וו-חיבור, תחילית-שעבוד או אות-יחס; זהו שם-מספר לא-מיודע, ברבים ובצורת הנסמך; ואין לו כינוי-קנין.


לדוגמה נוספת, נתבונן במילה השלישית מקובץ המקור: המילה

MGI&IM (מגיעים).

הניתוח הצורני שלה נמצא במילה השלישית של קובץ הניתוח:

HGI&*P*ZRAH

משמעות השדות מפורטת בטבלה הבאה:

השדה המשמעות ערכים חוקיים נוספים
HGI& ערך-מילוני = "הגיע" מפורטים למטה
* אין וו-חיבור מפורטים למטה
P חלק-דיבר = פועל מפורטים למטה
* אין תחילית-שעבוד מפורטים למטה
Z מין = זכר מפורטים למטה
R מספר = רבים מפורטים למטה
A גוף = כלשהו מפורטים למטה
H זמן = הווה מפורטים למטה

כלומר: המילה "מגיעים" שייכת לערך המילוני "הגיע", שהוא פועל. אין לפניה וו-החיבור או תחילית-שעבוד. זהו פועל בזכר רבים, בגוף כלשהו, ובזמן הווה.

עבור כל חלק-דיבר נשמרים רק השדות  הרלבנטיים עבור חלק-דיבר זה; למשל - עבור פועל לא נשמרים השדות: אות-יחס, יידוע, מצב-סמיכות וכינוי-קניין.


לדוגמה שלישית, נתבונן במילה האחרונה בשורה שהובאה למעלה מקובץ המקור:

LM&$H (למעשה).

הניתוח שלה נמצא במילה:

LM&$H*t* 

משמעות השדות מפורטת בטבלה הבאה:

השדה המשמעות הערות
LM&$H ערך-מילוני = "למעשה" מפורטים למטה
* אין וו-חיבור מפורטים למטה
t חלק-דיבר = תואר-פועל מפורטים למטה
* אין תחילית-שעבוד מפורטים למטה

כלומר: המילה "למעשה" שייכת לערך המילוני "למעשה", שהוא תואר-פועל. אין לפניה וו-החיבור או תחילית-שעבוד.


הערכים החוקיים לכל אחד מהשדות

תזכורת: התוכנה רגישה להבחנה בין אותיות לטיניות גדולות וקטנות.

שדה הערך המילוני: עשוי להכיל כל מחרוזת של תוים מהתעתיק הלטיני. הוא מסתיים בתו * או בתו 1.

שדה ו' החיבור: יכול לקבל * (אם אין ו') או 1 (אם יש ו').

שדה חלק הדיבר: יכול לקבל אחד מתוך הערכים הבאים: E (שם-עצם), P (פועל), p (שם-פרטי), z (פועל-עזר), T (תואר), t (תואר-פועל), M (שם-מספר), m (מילית), x (מילת-חיבור), y (מילת-יחס), j (מילת-שאלה), g (מילת-גוף).

שדה תחילית-השעבוד : יכול לקבל אחד מתוך הערכים הבאים: * (אין תחילית שעבוד), A (תחילית  שעבוד כלשהי), J (התחילית 'ש-'), K (התחילית 'כש-'), L (התחילית 'לכש-'), X (התחילית 'שכש-'), H (התחילית 'ה-' [1] ), S (התחילית 'שה-' [2] ).

שדה אות-היחס (רלבנטי רק עבור שמות-עצם ומספר): יכול לקבל אחד מתוך הערכים הבאים: * (אין אות יחס),  A (אות-יחס כלשהי), b (האות ב), k (האות כ), l (האות ל), m (האות מ).

שדה מצב-היידוע (רלבנטי רק עבור שמות-עצם, תואר ומספר): יכול לקבל אחד מתוך הערכים הבאים: L (לא-מיודע), K (מיודע), A או B (מצב יידוע כלשהו).

שדה המין: יכול לקבל אחד מתוך הערכים הבאים: Z (זכר), N (נקבה), A או B (מין כלשהו).

שדה המספר: יכול לקבל אחד מתוך הערכים הבאים: Y (יחיד), R (רבים), A או B (מספר כלשהו).

שדה מצב-הסמיכות (רלבנטי רק עבור שמות-עצם, תואר ומספר): יכול לקבל אחד מתוך הערכים הבאים: F (נפרד), S (נסמך), A או B (מצב סמיכות כלשהו).

שדה הגוף (רלבנטי רק עבור פעלים ומילות-גוף): יכול לקבל אחד מתוך הערכים הבאים: 1 (גוף ראשון), 2 (גוף שני), 3 (גוף שלישי), A או B (גוף כלשהו).

שדה הזמן (רלבנטי רק עבור פעלים): יכול לקבל אחד מתוך הערכים הבאים: V (עבר), H (הווה), S (הווה סביל), T (עתיד), C (ציווי), M (מקור או שם-הפועל).

השדות  של כינוי השייכות: אם אין כינוי שייכות אז בשלושת השדות יופיע הערך '*' (כמו בדוגמה שלמעלה). אם יש כינוי שייכות אז בשדות האלה יהיו ערכים של מין, מספר וגוף הכינוי. למשל, עבור המילה "ילדיו" (הילדים שלו) נקבל כינוי שייכות כזה:

ZY3

כלומר: הילדים שייכים לאיש ממין זכר (Z), יחיד (Y), גוף שלישי (3).

הניתוח המלא של המילה "ילדיו" יהיה:

ILD*E**LZRFZY3

כלומר: הערך המילוני הוא 'ילד' (ILD), אין ו' חיבור (*), חלק-הדיבר הוא שם-עצם (E), אין תחילית שעבוד (*), אין אות יחס (*), זהו שם-עצם לא מיודע (L), ממין זכר (Z), רבים (R), נפרד (F), וכינוי השייכות שלו הוא לזכר-יחיד-נפרד (ZY3)

סימני הפיסוק

סימני הפיסוק נחשבים למילות חיבור. למשל, המילה התשיעית בקובץ המקור היא

,

והניתוח שלה נמצא במילה התשיעית בקובץ הניתוח, שהיא:

,*x*

כלומר: הערך המילוני הוא ',', אין ו' חיבור (*), חלק-הדיבר הוא מילת-חיבור (x), ואין תחילית שעבוד (*).

הערות

  • בקובץ המקור יש כ16 מאמרים שונים. המאמרים מופרדים ביניהם ע"י התו *. התו * לא מנותח, כלומר - אין לו מילה מקבילה בקובץ הניתוח.
  • ניתן להשיג מחלקות בשפת JAVA שמטפלות במבנה של ניתוח צורני של מילה, כולל קריאה וכתיבה של המבנה מקובץ ניתוח בפורמט שתואר כאן.

[1] כמו במשפט "מי השילוח  ההולכים לאט".

[2] כמו במשפט "ההתחייבות שהחתום מטה קיבל על עצמו"

The format of the morphological analysis

This page was not translated to English yet.


 

This page should be viewed using Microsoft Internet Explorer 4+, with  Hebrew support. If you don't have Hebrew support, or don't read Hebrew, you can read a partial  English translation here.

כתובת האתר: http://www.cs.technion.ac.il/~erelsgl/bxi/hmntx/tqstim/teud_nitux_curni.html

להערות ותגובות: erelsgl @ cs . technion . ac . il