Tekstynai

Tekstynai (angl. corpus (vns.), corpora (dgs.)) – tai didžiuliai elektroninių tekstų rinkiniai, kurie paprastai naudojami tirti natūralios kalbos vartoseną (plačiau apie tekstynus lietuvių kalba žr. žurnalo „Darbai ir dienos“ 24 nr. (2000 m.).

KLC centre sukaupti šie tekstynai:

Vienkalbiai

Tekstynas Kalba Anotavimas Apimtis
Dabartinės lietuvių kalbos tekstynas lietuvių 140,9 mln. žodžių
CORPUS.VDU.LT lietuvių morfologiškai 208,4 mln. žodžių
MATAS lietuvių morfologiškai 1,6 mln. žodžių
ALKSNIS 2.0 lietuvių sintaksiškai 2355 sakiniai
ALKSNIS 3.0 lietuvių sintaksiškai 3643 sakiniai

Dvikalbiai lygiagretūs

Tekstynas Kalba Anotavimas Apimtis
Lygiagretus tekstynas anglų-lietuvių 2,025 mln. žodžių
lietuvių-anglų 0,061 mln. žodžių
čekų-lietuvių 0,536 mln. žodžių
lietuvių-čekų 0,021 mln. žodžių
LILA lietuvių-latvių-lietuvių 9,360 mln. žodžių

 

Lygiagretūs tekstynai – tai originalūs tekstai ir jų vertimų tekstai, sulygiagretinti sakinių lygmeniu. Lygiagrečiuosiuose tekstynuose gali būti sulygiagretinti dviejų ar daugiau kalbų tekstai. Paprastai norint sukaupti lygiagrečiuosius tekstynus reikia skirti daugiau laiko nei sudarant vienakalbius ar palyginamuosius tekstynus, nes neužtenka tik surinkti ir sutvarkyti elektroninius tekstus, bet juos reikia sulygiagretinti.

Anotuoti tekstynai – tai tekstynai, kuriuose struktūriniai, gramatiniai ar semantiniai kalbiniai požymiai pažymimi specialiomis metakalbinėmis pažymomis (arba anotacijomis).