Труды КНЦ вып.9 (ИНФОРМАЦИОННЫЕ ТЕХНОЛОГИИ) вып. 9/2019(10)
предложений с использованием падежных грамматик и семантических валентностей. При этом семантика предложения задается через связи главного слова (глагола) с его семантическими актантами. Моделирование синтаксиса и семантики на основе нейросетевого подхода получило широкое распространение в связи с ростом вычислительной мощности, развитием моделей и методов параллельной обработки данных (Mapreduce, Hadoop), и методов машинного обучения (Keras, Tensorflow, CatBoost). В проекте SyntaxNet представлен опыт использования рекуррентных нейронных сетей для морфологического и синтаксического анализа предложений без использования словарей и грамматик. Одной из главнейших проблем в данной области до недавнего времени являлась размерность данных и семантическая разреженность текстовой информации. Данная проблема решается алгоритмами векторного представления слов. Например, в наборе библиотек Word2Vec [7] реализованы подходы дистрибутивной семантики, позволяющие отразить слова языка в многомерное векторное пространство. Подобное отражение позволяет производить оценку близости слов и контекста их употребления. Многоуровневый анализ текста использован для поиска высказываний деонтической логики в работе [8]. Многоуровневый анализ текста предполагает совместное использование результатов синтаксического, ассоциативного, дистрибутивного анализа текста для построения семантической сети, в форме взвешенного мультиграфа. Многоуровневый анализ текста Задачи анализа текста многоаспектна и включает отдельные подзадачи, в частности: Извлечение сущностей (entity recognition), извлечение признаков (feature extraction), определение отношений между объектами. Объединение решения всех перечисленных задач позволяет извлекать формализованные знания о предметной области в виде понятий и структуры их взаимосвязей. В данной работе используется автоматическое извлечение объектов, и их свойств и отношений путем многоуровнего анализа тематических текстов предметной области. Многоуровновость анализа заключается в комбинации статистических и лингвистических методов с целью взаимного уточнения результатов анализа. На первом этапе применяются методы дистрибутивного анализа текста — определение частотных характеристик каждого слова в рассматриваемой коллекции документов, учет статистики совместного употребления, определение контекстной близости слов. Формируется взвешенная ассоциативная семантическая сеть[8], весовой коэффициент формируется исходя из частотных характеристик совместного употребления слов. Векторизация слов используется на данном этапе для оценки контекстной близости слов с целью определения устойчивых словосочетаний и денотатов каждого слова. Также векторизация позволяет проводить анализ относительно небольших наборов текстовых документов, уточняя результаты ассоциативного отношения. Показателем контекстной близости является косинусная близость между векторами слов, полученными дистрибутивными моделями на основе больших корпусов текстов. На втором уровне производится формирование синтаксических деревьев исходных текстов, и последующая интеграция полученных деревьев в модель 92
Made with FlippingBook
RkJQdWJsaXNoZXIy MTUzNzYz