Корпус греческого языка

Корпус представляет собой коллекцию текстов, дополненных разметкой разного вида и поисковым механизмом. Объём корпуса в настоящий момент составляет 35,7 млн словоупотреблений. Большинство текстов составляют выпуски греческих газет начала XXI века (Η Καθημερινή, Μακεδονία, Το Βήμα, Ελευθεροτυπία), но имеются также художественная литература, поэзия, официальная, научная и религиозная литература и переводные тексты, созданные в XX и XIX веках. Все тексты обладают морфологической разметкой, т. е. при каждом слове указана его лемма (начальная форма) и набор выраженных в слове грамматических значений (падеж, число и т. п.); все эти параметры можно использовать в поисковых запросах. Морфологическая разметка проводилась с помощью электронного грамматического словаря, составленного М. Л. Кисилиером и Т. А. Архангельским, и морфологического анализатора UniParser.

Kisiliyer Maksim Lvovich