Предсказания, большие данные и новые измерители: о возможностях технологий компьютерной лингвистики в теоретических, лингвистических исследованиях
Ключевые слова:
Статья посвящена обзору работ последних лет, в которых теоретическая исследовательская задача решается с помощью методов или инструментов, используемых в компьютерной лингвистике. В обзоре проводится подробный анализ того, как именно с помощью применения того или иного инструмента или метода можно получить новые знания о природе языка. В частности, выделяются два основных направления, развитие которых в рамках теоретических исследований представляется чрезвычайно перспективным. Это, с одной стороны, применение алгоритмов машинного обучения как предсказательной модели для описания многофакторных языковых явлений, с другой стороны, использование возможностей, открывающихся для типологических исследований и межъязыковых сравнений благодаря созданию множества «глубоко аннотированных» корпусов для разных языков, т. е. корпусов со сложной разметкой, например, синтаксической или референциальной. Уже сейчас объем имеющихся различных данных позволяет делать определенные выводы о свойствах тех или иных универсалий, которые были описаны раньше в теоретических типологических работах. Ключевые слова: дативная альтернация, категория определенности, компьютерная лингвистика, машинное обучение, синтаксический корпус, теория языка, типология, референциальный выбор.