Труды КНЦ вып.3 (ИНФОРМАЦИОННЫЕ ТЕХНОЛОГИИ вып.1 3/2010(3))

слова одной или разных частей речи. Лексические омонимы - слова одной части речи, одинаковые по звучанию и написанию, но разные по лексическому значению. Устойчивые сочетания слов. Словосочетания мо гут иметь смысл отличный от смысла, который име ют слова по отдельности. Морфологические вариации. Во многих естест венных языках слова имеют несколько морфологи ческих форм, различающихся по написанию. Существующие ПС используют различные мето ды обработки текстов ЕЯ. В современных техноло гиях текстового поиска используется не только аппа рат лингвистики для анализа текстов, но и статисти ческие методы, математическая логика и теория ве роятностей, кластерный анализ, методы искусствен ного интеллекта, а так же технологии управления данными. Рассмотрим два основных подхода к обра ботке и анализу текстов ЕЯ - статистический и лингвистический (рис.1). Методы обработки естественного языка это теория и метод для извлечения контекстно - зависимых значений слов при помощи статистиче ской обработки больших наборов текстовых данных [2]. Латентно-семантический анализ основывается на идее, что совокупность всех контекстов, в которых встречается и не встречается данное слово, задает множество обоюдных ограничений, которые в зна чительной степени позволяют определить похожесть смысловых значений слов и множеств слов между собой. Главный недостаток статистических методов со стоит в невозможности учета связности текста, а представление текста как простого множества слов недостаточно для отражения его содержания. Текст представляет набор слов, выстроенных в определен ной заданной последовательности. Преодолеть этот недостаток позволяет использование лингвистиче ских методов анализа текста. Существуют следующие уровни лингвистическо го анализа: графематический, морфологический, синтаксический, семантический. Результаты работы каждого уровня используются следующим уровнем анализа в качестве входных данных (рис. 2). Рис.1. Методы обработки естественного языка В основе статистического подхода лежит пред положение, что содержание текста отражается наи более часто встречающимися словами. Суть стати стического анализа заключается в подсчете количе ства вхождений слов в документ. Распространенным является сопоставление каждому терму t в документе некоторого неотрицательного веса. Веса термов вы числяются множеством различных способов. Самый простой из них - положить «вес» равный количеству появлений терма t в документе d , обозначается tft,d (term frequency)[1]. Этот метод взвешивания не учи тывает дискриминационную силу терма. Поэтому в случае, когда доступна статистика использования термов по коллекции, лучше работает схема tf-idf вычисления весов, определяемая следующим образом: t f ~ idf г,d = (fi.J X id.f] ■ где i d f i = l o g ------ обратная документальная часто- d/г та (inverse document frequency) терма t , dft - доку ментальная частота (document frequency), определяе мая как количество документов в коллекции, содер жащих терм t, N - общее количество документов в коллекции. Схема tf-idf и ее модификации широко используются на практике. Эффективным подходом, основанным на стати стическом анализе, является латентно-семантическое индексирование. Латентно-семантический анализ - Графематический анализ отдельные слова Морфологический анализ X Z . морфологические характеристики слов Синтаксический анализ зависимости слов в предложении Семантический анализ Рис.2. Уровни лингвистического анализа Целью графематического анализа является выде ления элементов структуры текста: параграфов, аб зацев, предложений, отдельных слов и т. д. Целью морфологического анализа является опре деление морфологических характеристик слова и его основной словоформы. Особенности анализа сильно зависят от выбранного естественного языка. Целью синтаксического анализа является опреде ление синтаксической зависимости слов в предложе нии. В связи с присутствием в русском языке боль шого количества синтаксически омонимичных кон струкций, наличием тесной связи между семантикой и синтаксисом, процедура автоматизированного син таксического анализа текста является трудоемкой. Сложность алгоритма увеличивается экспоненци ально при увеличении количества слов в предложе нии и числа используемых правил. 30