Труды КНЦ вып.8 (ИНФОРМАЦИОННЫЕ ТЕХНОЛОГИИ вып. 3/2017(8))

Семантический анализ понимается разными исследователями по- разному. В сферу семантического анализа входит: построение семантической интерпретации слов и конструкций; установление "содержательных" семан­ тических отношений между элементами текста, которые уже принципиально не ограничены размером одного слова (могут быть больше или меньше одного слова). Результирующее представление, в котором решены эти две задачи, является наиболее глубоким и законченным из тех, которые можно достичь только лингвистическими средствами, не прибегая к внешним экстенсиональ­ ным источникам, и этим объясняется актуальность семантического анализа [2]. Разработки в области семантического анализа текста связаны с областью искусственного интеллекта, делающей акцент на смысловом понимании текста. Несмотря на значимость данного направления, существует множество нерешенных проблем в области семантического анализа. В настоящее время успехи в этом направлении достаточно ограничены. Разработанные семанти­ ческие анализаторы обладают высокой вычислительной сложностью и неоднозначностью выдаваемых результатов [3]. В данной работе представлен сервис семантического анализа текста на естественном языке, реализующий автоматическое формирование семанти­ ческой модели предметной области на основе коллекции документов. Областью применения семантического анализа являются задачи информационного поиска, автоматического перевода, контент-анализа, поиска противоречий, рефери­ рования, анализа интересов пользователя ИС, авторства текстов, и т.д. Сервис семантического анализа текста Анализ текста включает несколько этапов: графематический, морфо­ логический, синтаксический и семантический анализ. Результаты работы каждого уровня используются следующим уровнем анализа в качестве входных данных (рис. 1). Графематический анализ выделяет элементы структуры текста: параграфов, абзацев, предложений, отдельных слов и т. д. Целью морфо­ логического анализа является определение морфологических характеристик слова и его основной словоформы. Целью синтаксического анализа является определение синтаксической зависимости слов в предложении. В связи с присутствием в русском языке большого количества синтаксически омони­ мичных конструкций, наличием тесной связи между семантикой и синтаксисом, процедура автоматизированного синтаксического анализа текста является трудоемкой. Сложность алгоритма увеличивается экспоненциально при увеличении количества слов в предложении и числа используемых правил. Семантический этап использует формальное представление смысла состав­ ляющих входной текст слов и конструкций. Одной из актуальных проблем существующих систем автоматического получения формализованных знаний является определение ассоциированных объектов из текста. На учет и хранение контекстов предметной области, учет различных форм передачи синтаксиса, а также на решение проблемы равнозначности направлено формирование семантической модели предметной области (СМПО) в виде структуры взвешенных семантических отношений на основе коллекции документов. СМПО позволяет реализовать процедуры извле­ 110

RkJQdWJsaXNoZXIy MTUzNzYz