Труды КНЦ вып. 11 (ИНФОРМАЦИОННЫЕ ТЕХНОЛОГИИ) вып. 8/2020 (11)

В совокупности, большое разнообразие задач, связанных с семантическим анализом текста, и многообразие применений ИНС для их решения создают довольно сложный ландшафт, требующий систематизации. В данной работе предложена интерпретация семантического анализа текста как двухэтапного процесса, первая часть которого заключается в моделировании текста с целью оценки некоторых его свойств, а вторая - в собственно построении целевой семантической модели. Выделены несколько видов моделей текста, в зависимости от характера отражаемых в моделях свойств, и рассмотрен современный опыт использования ИНС для построения моделей текста различных видов. 1. Структура задачи семантического анализа текста Текст на естественном языке (ЕЯ-текст) может играть роль как самостоятельного объекта исследования, так и вспомогательного инструмента для изучения других объектов. В данной работе ЕЯ-текст рассматривается как второе. Объектом (целью) моделирования при этом является некоторая предметная область, знания о которой мы хотим получить из имеющихся текстов. Таким образом, под семантическим анализом текстов мы понимаем задачу преобразования T^S (T ), где T - исходный текст, а S(T) - некоторое подмножество фактов (истинных утверждений) из семантической модели предметной области S , в том или ином виде содержащихся в тексте (следующих из текста). Согласно одному из доминирующих представлений о природе смысла [2], семантика текста (индуцируемые им представления) экстернализирована, не является объективным свойством ЕЯ-текста и зависит, таким образом, от интерпретации, т.е. от используемой модели S , играющей роль метаязыка. Поэтому такая постановка представляется единственно корректной. Семантический анализ текста в нашей трактовке, таким образом, можно считать частным случаем задачи обработки естественного языка (Natural Language Processing, NLP). Отличие в том, что в NLP результатом обработки является некоторое представление (модель) текста, пригодное для машинной обработки вообще, в случае же семантического анализа целью является построение семантической модели текста в терминах некоторой более общей модели предметной области. Среди наиболее распространенных задач обработки текстов на ЕЯ (см, например, [3]) такой интерпретации соответствуют задачи распознавания именованных сущностей, извлечения фактов и отношений, семантического аннотирования [4], анализа тональности (sentiment analysis and opinion mining) и другие. В зависимости от задачи, целевая модель S может иметь различный вид - от тривиального множества топонимов в задаче распознавания именованных географических сущностей, до прикладной онтологии в задачах извлечения отношений. Полученное в результате семантического анализа множество истинных утверждений модели S может затем использоваться для решения различных более прикладных задач: заселения (пополнения) онтологий, семантического поиска информации, оценки схожести смысла, разрешения кореференций и т.п. Принципиальное отличие разных подходов к решению данной задачи заключается в признаках текста, используемых для идентификации компонентов семантической модели (интерпретации текста в семантическую модель S ). В свою очередь, признаки также продуцируются из некоторой модели текста, отражающей те 92

RkJQdWJsaXNoZXIy MTUzNzYz