Труды КНЦ вып. 11 (ИНФОРМАЦИОННЫЕ ТЕХНОЛОГИИ) вып. 8/2020 (11)

Ключевые слова: Автоматизированное извлечение знаний, дистрибутивная семантика, тезаурус, семантическая сеть V.K. Pimeshkov, V.V. Dikovitsky, M.G. Shishaev Apatity, Institute for Informatics and Mathematical Modelling, KSC RAS EXTRACTION OF RELATION FROM NATURAL LANGUAGE TEXTS USING STATISTICAL AND LINGUISTIC METHODS Abstract The work is devoted to the automated extraction of knowledge from unstructured text with the aim of their application in fact extraction, the formation and replenishment of a thesaurus, analysis of document consistency. To extract and structure knowledge, methods of statistical and linguistic analysis are used. Keywords: Automated knowledge extraction, distribution semantics, thesaurus, semantic network. С ростом объемов текстовых данных, подлежащих обработке в рамках различных прикладных проблем, становится все более актуальной задача автоматического извлечения и обработки формализованных знаний. Задачи анализа текста многоаспектна и включает отдельные подзадачи, в частности: Извлечение сущностей (entity recognition), извлечение признаков (feature extraction), определение отношений между объектами. Объединение решения всех перечисленных задач позволяет извлекать формализованные знания о предметной области в виде понятий и структуры их взаимосвязей. В данной работе используется автоматическое извлечение объектов, и их свойств и отношений путем многоуровнего анализа тематических текстов предметной области. Процедура анализа текста включает комбинацию статистических и лингвистических методов с целью взаимного уточнения результатов. На первом этапе применяются методы дистрибутивного анализа - определение частотных характеристик каждого слова в рассматриваемой коллекции документов, учет статистики совместного употребления, определение контекстной близости слов. Формируется взвешенная ассоциативная семантическая сеть[1], весовой коэффициент формируется исходя из частотных характеристик совместного употребления слов. Векторизация слов используется на данном этапе для оценки контекстной близости слов с целью определения устойчивых словосочетаний и денотатов каждого слова. Также векторизация позволяет проводить анализ относительно небольших наборов текстовых документов, уточняя результаты ассоциативного отношения. Показателем контекстной близости является косинусная близость между векторами слов, полученными дистрибутивными моделями на основе больших корпусов текстов. На втором уровне производится формирование синтаксических деревьев исходных текстов, и последующая интеграция полученных деревьев в модель семантической сети с множественными связями. Для синтаксического и морфологического анализа использована основанная на машинном обучении библиотека SyntaxNet[2], включающая синтаксическую модель русского языка. Синтаксическую разметку составляют 44 отношения Universal Dependencies[3] 189