|
|
![]() ![]()
|
פתיחהקבצי הניתוח הצורני הם קבצי-טקסט (ASCII). הם כתובים בפורמט שנועד לענות על שתי דרישות סותרות:
הפורמט שהתקבל הוא פשרה בין שתי דרישות אלו: הוא ניתן לקריאה ע"י קוראים אנושיים, אך לא בקלות. מסמך זה נועד לסייע לקוראים להבין את הפורמט. דוגמאותנתבונן במילים הראשונות מתוך קובץ המקור -- harc20.txt: &$RWT AN$IM MGI&IM MTAILND LI$RAL K$HM NR$MIM KMTNDBIM , AK LM&$H ... המילים האלו הן התעתיק הלטיני של המשפט העברי:
כעת נתבונן במילים הראשונות מתוך קובץ הניתוח harc20.to: &$R*M**LZRS*** AI$*E**LZRF*** HGI&*P*ZRAH TAILND*p*mZ I$RAL*p*lB HWA*gK*LZR3 NR$M*P*ZRAH MTNDB*E*kLZRF*** ,*x* AK*x* LM&$H*t* ... כל 'מילה' בקובץ הניתוח מייצגת את הניתוח הצורני של המילה המקבילה לה בקובץ המקור. למשל: המילה הראשונה בקובץ המקור היא &$RWT (עשרות). הניתוח שלה נמצא במילה הראשונה של קובץ הניתוח: &$R*M**LZRS*** הניתוח מורכב משדות, המסודרים משמאל לימין. השדה הראשון הוא הערך המילוני של המילה (במקרה זה: "עשר"), ושאר השדות מורכבים כל אחד מתו אחד בדיוק. הטבלה הבאה מפרטת את משמעות השדות:
כלומר: המילה "עשרות" שייכת לערך המילוני "עשר", שהוא שם-מספר; אין לפניה וו-חיבור, תחילית-שעבוד או אות-יחס; זהו שם-מספר לא-מיודע, ברבים ובצורת הנסמך; ואין לו כינוי-קנין. לדוגמה נוספת, נתבונן במילה השלישית מקובץ המקור: המילה MGI&IM (מגיעים). הניתוח הצורני שלה נמצא במילה השלישית של קובץ הניתוח: HGI&*P*ZRAH משמעות השדות מפורטת בטבלה הבאה:
כלומר: המילה "מגיעים" שייכת לערך המילוני "הגיע", שהוא פועל. אין לפניה וו-החיבור או תחילית-שעבוד. זהו פועל בזכר רבים, בגוף כלשהו, ובזמן הווה. עבור כל חלק-דיבר נשמרים רק השדות הרלבנטיים עבור חלק-דיבר זה; למשל - עבור פועל לא נשמרים השדות: אות-יחס, יידוע, מצב-סמיכות וכינוי-קניין. לדוגמה שלישית, נתבונן במילה האחרונה בשורה שהובאה למעלה מקובץ המקור: LM&$H (למעשה). הניתוח שלה נמצא במילה: LM&$H*t* משמעות השדות מפורטת בטבלה הבאה:
כלומר: המילה "למעשה" שייכת לערך המילוני "למעשה", שהוא תואר-פועל. אין לפניה וו-החיבור או תחילית-שעבוד. הערכים החוקיים לכל אחד מהשדותתזכורת: התוכנה רגישה להבחנה בין אותיות לטיניות גדולות וקטנות.
סימני הפיסוקסימני הפיסוק נחשבים למילות חיבור. למשל, המילה התשיעית בקובץ המקור היא , והניתוח שלה נמצא במילה התשיעית בקובץ הניתוח, שהיא: ,*x* כלומר: הערך המילוני הוא ',', אין ו' חיבור (*), חלק-הדיבר הוא מילת-חיבור (x), ואין תחילית שעבוד (*). הערות
The format of the morphological analysisThis page was not translated to English yet. |
This page should be viewed using Microsoft Internet Explorer 4+, with Hebrew support. If you don't have Hebrew support, or don't read Hebrew, you can read a partial English translation here. |
|
כתובת האתר: http://www.cs.technion.ac.il/~erelsgl/bxi/hmntx/tqstim/teud_nitux_curni.html
להערות ותגובות: erelsgl @ cs . technion . ac . il |