טקסטים עבריים
התעתיק פורמט הניתוח הצורני

 

לדף הראשי
תקציר
החיבור כולו
המילון
טקסטים עבריים
הדגמת המנתח הצורני
התוכנה

בעמוד זה ניתן להוריד טקסטים עבריים הכתובים בתעתיק לטיני. התעתיק נועד להקל על ניתוח הטקסטים במחשב. פרטי התעתיק נמצאים כאן.

הטקסטים לקוחים מגליונות של עיתון "הארץ" משנת ה'תשנ"א (1991). הם נמסרו לטכניון לצרכי מחקר.

ואלו הם הטקסטים שניתן להוריד כאן:

  • טקסט גדול, ובו 166258 מחרוזות: harc.txt
  • תת-קבוצה של הטקסט הגדול: טקסט מנותח ניתוח צורני, ובו 5374 מחרוזות : harc20.txt
  • הניתוח הצורני של טקסט זה נמצא בקובץ נפרד: harc20.to.

הסבר לגבי הפורמט שבו כתוב הניתוח הצורני נמצא כאן .

ניתן להוריד את כל הטקסטים, יחד עם כל המנתח הצורני,כאן .

 


Hebrew Texts

Here you can download Hebrew texts in Latin transliteration. The transliteration makes it easier to work with the texts in different operating systems. The details of the transliteration are here.

The texts were published in Haaretz, a Israeli newspaper, in 5751 (1991). They were  given to the Technion for research purposes.

These are the texts you can download here:

  • harc.txt: a large untagged corpus (166258 word tokens).
  • harc20.txt: a subset of the large corpus (5374 word tokens), which was morphologically analyzed manually.
  • The morphological analysis of the above text is in a separate file: harc20.to.

The format of the morphological analysis is detailed here .

to download all the texts, together with the morphological analyzer, click here .


This page should be viewed using Microsoft Internet Explorer 4+, with  Hebrew support. If you don't have Hebrew support, or don't read Hebrew, you can read a partial  English translation here.

כתובת האתר: http://www.cs.technion.ac.il/~erelsgl/bxi/hmntx/tqstim/teud.html

להערות ותגובות: erelsgl @ cs . technion . ac . il