Текстуални корпус

Текстуални корпуси (односно у линґвистичним жарґону лєм корпуси) обширни збирки текстох на природним язику. Тексти котри творя корпус достати у одредзеним периоду зоз медийох (напр. преси або сайтох аґенцийох), кнїжней творчосци, стрипох, рекламох, упутсвох за хаснованє, транскриптох парламентарних дебатох итд, зачувани у структурираней форми и звичайно опремени зоз ознаками (таґовани). За сучасни линґвистични виглєдованя корпуси барз важни инфраструктури, зоз котрих мож реконструовац вельо аспекти язика.

Медзи ознаками котри содержа корпуси найважнєйши леми, т. є. основни форми словох, ознаки морфолоґийних формох (напр. припадкох, числа, часу) и ознаки синтаксичних функцийох. Тоти ознаки ше нє хасную лєм за потреби корпусней линґвистики, алє и за припознаванє и ґенерованє бешеди, машинске прекладанє и други функциї.

Файти корпусох

ушориц

З оглядом на язик, корпуси можу буц єдноязични або вецейязични. Медзи єдноязичнима корпусами найважнєйши тип референтни корпуси. Таки корпуси найобширнєйши и содержа репрезентативни прикладнїк текстох на одредзеним язики, так же их мож хасновац за фундаментални виглєдованя ґраматики и словнїка того язика. Медзи вецейязичнима корпусами, найважнєйши тип паралелни корпуси, у котрих мож опатрац ориґинали и преклади истих текстох и як таки оможлївюю поровнанє язикох.