Труды КНЦ вып. 11 (ИНФОРМАЦИОННЫЕ ТЕХНОЛОГИИ) вып. 8/2020 (11)

или иные его аспекты - используемый лексикон, частота использования языковых конструкций, структура синтаксических связей между ними и т.д. Соответственно, используемая модель текста может быть различной: множество символов, множество лексем, синтаксические конструкции, статистическая модель и т.д. Используются и специфические модели, ориентированные на анализ текста в определенном ключе - например, в работе [5] рассматривается оригинальная модель, характеризующая научный текст с точки зрения описанных в нем ментальных операций. Каждая модель может дать те или иные признаки, по которым затем можно идентифицировать семантику. Таким образом, процесс семантического анализа, явно или неявно, включает две ступени: 1) Моделирование текста с целью определения его значимых характеристик. На этом этапе осуществляется своеобразное «измерение» свойств текста. 2) Формирование подмножества целевой семантической модели, в определенном смысле следующего из заданного текста. На этом этапе осуществляется интерпретация текста в целевую семантическую модель. Т ^ М ( Т ) ^ S(M(T)). В зависимости от характера признаков, описываемых моделью М, и используемом представлении о внутренней структуре текста, можно выделить следующие виды моделей: - Лексическая модель. Текст рассматривается как множество лексем (в более общем случае - n-грамм), их отношения между собой не учитываются. Существует много реализаций, например, поиск в тексте сущностей, определенных в модели М, по лексическим маркерам. Используется в анализе тональности, извлечении именованных сущностей и других задачах. Преимущество такой упрощенной модели в скорости обработки текста с целью определения признаков. - Грамматические модели. На элементах текста устанавливаются отношения (в том числе - одноместные), заданные в некоторой грамматике (синтаксические, коммуникативные или иные), текст рассматривается как грамматическая структура. Обработка текста усложняется, но модель М является более семантически нагруженной, что создает предпосылки для более эффективной последующей трансляции в целевую модель. - Статистические модели. Ключевой атрибут модели - частотно вероятностные характеристики элементов текста (в т.ч. - взаимная встречаемость). Текст рассматривается как множество элементов и их комбинаций (символов, лексем, последовательностей слов) со статистическими свойствами. В англоязычной литературе, как правило, под термином «language model» подразумевается именно статистическая модель, задающая распределение вероятностей последовательностей слов [6]. «Классическая» задача моделирования в этой трактовке - предсказание следующего слова на основании предыдущих в последовательности. Основное ограничение - для построения модели необходимы большие текстовые корпусы. - Семантические модели. Текст рассматривается как совокупность некоторых элементов, обладающих смыслом. Роль подобных элементов могут играть как отдельные слова (лексическая семантика), так и более сложные структуры, например - семантические фреймы [7]. 93