Труды КНЦ вып.8 (ИНФОРМАЦИОННЫЕ ТЕХНОЛОГИИ вып. 3/2017(8))
Семантический анализ понимается разными исследователями по- разному. В сферу семантического анализа входит: построение семантической интерпретации слов и конструкций; установление "содержательных" семан тических отношений между элементами текста, которые уже принципиально не ограничены размером одного слова (могут быть больше или меньше одного слова). Результирующее представление, в котором решены эти две задачи, является наиболее глубоким и законченным из тех, которые можно достичь только лингвистическими средствами, не прибегая к внешним экстенсиональ ным источникам, и этим объясняется актуальность семантического анализа [2]. Разработки в области семантического анализа текста связаны с областью искусственного интеллекта, делающей акцент на смысловом понимании текста. Несмотря на значимость данного направления, существует множество нерешенных проблем в области семантического анализа. В настоящее время успехи в этом направлении достаточно ограничены. Разработанные семанти ческие анализаторы обладают высокой вычислительной сложностью и неоднозначностью выдаваемых результатов [3]. В данной работе представлен сервис семантического анализа текста на естественном языке, реализующий автоматическое формирование семанти ческой модели предметной области на основе коллекции документов. Областью применения семантического анализа являются задачи информационного поиска, автоматического перевода, контент-анализа, поиска противоречий, рефери рования, анализа интересов пользователя ИС, авторства текстов, и т.д. Сервис семантического анализа текста Анализ текста включает несколько этапов: графематический, морфо логический, синтаксический и семантический анализ. Результаты работы каждого уровня используются следующим уровнем анализа в качестве входных данных (рис. 1). Графематический анализ выделяет элементы структуры текста: параграфов, абзацев, предложений, отдельных слов и т. д. Целью морфо логического анализа является определение морфологических характеристик слова и его основной словоформы. Целью синтаксического анализа является определение синтаксической зависимости слов в предложении. В связи с присутствием в русском языке большого количества синтаксически омони мичных конструкций, наличием тесной связи между семантикой и синтаксисом, процедура автоматизированного синтаксического анализа текста является трудоемкой. Сложность алгоритма увеличивается экспоненциально при увеличении количества слов в предложении и числа используемых правил. Семантический этап использует формальное представление смысла состав ляющих входной текст слов и конструкций. Одной из актуальных проблем существующих систем автоматического получения формализованных знаний является определение ассоциированных объектов из текста. На учет и хранение контекстов предметной области, учет различных форм передачи синтаксиса, а также на решение проблемы равнозначности направлено формирование семантической модели предметной области (СМПО) в виде структуры взвешенных семантических отношений на основе коллекции документов. СМПО позволяет реализовать процедуры извле 110
Made with FlippingBook
RkJQdWJsaXNoZXIy MTUzNzYz