Труды КНЦ вып. 11 (ИНФОРМАЦИОННЫЕ ТЕХНОЛОГИИ) вып. 8/2020 (11)
эффективное решение задач синтаксического разбора и экстрактивного реферирования [21]. Семантическое моделирование на основе ЕЯ-текстов Искусственные нейронные сети также широко применяются для моделирования различных аспектов семантики ЕЯ-текста. Результаты моделирования могут использоваться как в качестве компонентов целевой семантической модели, так и в качестве признаков текста, используемых затем для построения итоговой модели (термин «семантика» здесь понимается в широком смысле - эквивалентные понятия и свойства языковых конструкций, близкие к ментальным моделям человека). Спектр задач данной категории очень широк, практически для всех из них существуют решения, основанные на ИНС. К задачам семантического анализа текста, результат решения которых может использоваться для формирования признакового пространства при построении целевой семантической модели текста, можно отнести: моделирование тематики (topic modeling) [22; 23]; сентимент-анализ (анализ тональности или эмоциональной окраски) [24-26]; выявление семантических ролей [27; 28]. Как упоминалось выше, некоторые из рассмотренных моделей ЕЯ-текста могут играть роль целевой семантической модели. В частности, к таковым можно отнести модели, используемые в рамках задачи семантико-ролевой разметки (semantic roles labeling). В рамках существующих подходов к определению семантических ролей осуществляется не только выделение лексических единиц, обозначающих понятия, но и идентификация с ними некоторых семантических или тематических ролей из заданного множества. Общий подход к решению этой задачи основан на контролируемом машинном обучении, а в качестве основы для обучающей выборки используются библиотеки размеченных текстов [8]. Наиболее известными проектами, предлагающими такие библиотеки, являются PropBank [29] и FrameNet [30]. В первом проекте семантическими ролями аннотируются отдельные слова, во втором - более сложные конструкции - семантические фреймы. Для русского языка поддерживается проект, аналогичный FrameNet - FrameBank [31]. Вместе с тем, наиболее универсальным и распространенным способом реализации семантических моделей предметной области для решения практических задач с применением компьютера являются онтологии [32]. Формирование онтологий на основе текстов на естественном языке включает несколько этапов [33]: - предобработка (лемматизация, часте-речевая разметка); - извлечение понятий; - извлечение отношений; - формирование аксиом; - оценка качества. Для решения перечисленных задач также широко используются ИНС. Например, в работе [34] предложена технология формирования онтологии на основе текстовых данных (веб-ресурсов) из различных предметных областей, использующая модели машинного обучения, в частности - ИНС. В работах [35; 36] рассматриваются основанные на нейросетевых моделях технологии извлечения из ЕЯ-текстов парадигматических и деонтических высказываний. В работе [37] предложена технология автоматического извлечения новых 97
Made with FlippingBook
RkJQdWJsaXNoZXIy MTUzNzYz