Труды КНЦ вып.3 (ИНФОРМАЦИОННЫЕ ТЕХНОЛОГИИ вып.1 3/2010(3))

слова одной или разных частей речи. Лексические омонимы - слова одной части речи, одинаковые по звучанию и написанию, но разные по лексическому значению. Устойчивые сочетания слов. Словосочетания мо­ гут иметь смысл отличный от смысла, который име­ ют слова по отдельности. Морфологические вариации. Во многих естест­ венных языках слова имеют несколько морфологи­ ческих форм, различающихся по написанию. Существующие ПС используют различные мето­ ды обработки текстов ЕЯ. В современных техноло­ гиях текстового поиска используется не только аппа­ рат лингвистики для анализа текстов, но и статисти­ ческие методы, математическая логика и теория ве­ роятностей, кластерный анализ, методы искусствен­ ного интеллекта, а так же технологии управления данными. Рассмотрим два основных подхода к обра­ ботке и анализу текстов ЕЯ - статистический и лингвистический (рис.1). Методы обработки естественного языка это теория и метод для извлечения контекстно - зависимых значений слов при помощи статистиче­ ской обработки больших наборов текстовых данных [2]. Латентно-семантический анализ основывается на идее, что совокупность всех контекстов, в которых встречается и не встречается данное слово, задает множество обоюдных ограничений, которые в зна­ чительной степени позволяют определить похожесть смысловых значений слов и множеств слов между собой. Главный недостаток статистических методов со­ стоит в невозможности учета связности текста, а представление текста как простого множества слов недостаточно для отражения его содержания. Текст представляет набор слов, выстроенных в определен­ ной заданной последовательности. Преодолеть этот недостаток позволяет использование лингвистиче­ ских методов анализа текста. Существуют следующие уровни лингвистическо­ го анализа: графематический, морфологический, синтаксический, семантический. Результаты работы каждого уровня используются следующим уровнем анализа в качестве входных данных (рис. 2). Рис.1. Методы обработки естественного языка В основе статистического подхода лежит пред­ положение, что содержание текста отражается наи­ более часто встречающимися словами. Суть стати­ стического анализа заключается в подсчете количе­ ства вхождений слов в документ. Распространенным является сопоставление каждому терму t в документе некоторого неотрицательного веса. Веса термов вы­ числяются множеством различных способов. Самый простой из них - положить «вес» равный количеству появлений терма t в документе d , обозначается tft,d (term frequency)[1]. Этот метод взвешивания не учи­ тывает дискриминационную силу терма. Поэтому в случае, когда доступна статистика использования термов по коллекции, лучше работает схема tf-idf вычисления весов, определяемая следующим образом: t f ~ idf г,d = (fi.J X id.f] ■ где i d f i = l o g ------ обратная документальная часто- d/г та (inverse document frequency) терма t , dft - доку­ ментальная частота (document frequency), определяе­ мая как количество документов в коллекции, содер­ жащих терм t, N - общее количество документов в коллекции. Схема tf-idf и ее модификации широко используются на практике. Эффективным подходом, основанным на стати­ стическом анализе, является латентно-семантическое индексирование. Латентно-семантический анализ - Графематический анализ отдельные слова Морфологический анализ X Z . морфологические характеристики слов Синтаксический анализ зависимости слов в предложении Семантический анализ Рис.2. Уровни лингвистического анализа Целью графематического анализа является выде­ ления элементов структуры текста: параграфов, аб­ зацев, предложений, отдельных слов и т. д. Целью морфологического анализа является опре­ деление морфологических характеристик слова и его основной словоформы. Особенности анализа сильно зависят от выбранного естественного языка. Целью синтаксического анализа является опреде­ ление синтаксической зависимости слов в предложе­ нии. В связи с присутствием в русском языке боль­ шого количества синтаксически омонимичных кон­ струкций, наличием тесной связи между семантикой и синтаксисом, процедура автоматизированного син­ таксического анализа текста является трудоемкой. Сложность алгоритма увеличивается экспоненци­ ально при увеличении количества слов в предложе­ нии и числа используемых правил. 30

RkJQdWJsaXNoZXIy MTUzNzYz