Труды КНЦ вып.3 (ИНФОРМАЦИОННЫЕ ТЕХНОЛОГИИ вып.1 3/2010(3))

Мцмик вацчных тщ ди 2011 ОБРАБОТКА ТЕКСТОВ ЕСТЕСТВЕННОГО ЯЗЫКА В МОДЕЛЯХ ПОИСКОВЫХ СИСТЕМ В.В. Диковицкий, М.Г. Шишаев Введение Одной из основных функций современных ин­ формационных систем (ИС) является поиск элемен­ тов данных, удовлетворяющих некоторым признакам (информационный поиск). Специфика методических и технологических проблем, возникающих при орга­ низации такого поиска, обусловливается нескольки­ ми факторами. Прежде всего, это - характер контен­ та, содержащегося в информационных ресурсах, входящих в систему. В современных ИС по- прежнему преобладает текстовый контент, однако все большее распространение приобретают мульти- форматные ресурсы, содержащие мультимедиа­ контент (графика, аудио и видео информация), а также использующие для повышения эффективности функционирования различные формы структуриза­ ции контента. Результатом струткуризации стано­ вится деление информации на собственно данные, мета-данные, описывающие их структуру, и даже "мета-мета-данные", определяющие различные вари­ анты структур данных. Такие особенности контента, в явном или неявном виде, определяют подходы к организации эффективного поиска информации в рамках соответствующего набора ресурсов. Еще одним важным обстоятельством, оказываю­ щим существенное влияние на эффективность меха­ низмов поиска информации, является распределен­ ный и, как следствие, гетерогенный характер совре­ менных информационных ресурсов и систем. Ориен­ тированные на использование в условиях однород­ ных информационных систем и ресурсов механизмы поиска (например, на базе простых индексов) резко теряют свою эффективность в применении к распре­ деленным гетерогенным системам, где форматы представления данных и, соответственно, мета­ данные отличаются от ресурса к ресурсу или от сис­ темы к системе. Это обстоятельство заставляет ис­ следователей и разработчиков искать пути создания универсальных методов и технологий информацион­ ного поиска, адекватных требованиям современных информационных систем. Текст является одной из основных форм обмена информацией в обществе. Текстовая информация в различных форматах составляет значительную долю информационных ресурсов информационных систем. Поэтому создание и развитие технологий обработки текста привлекали большое внимание на всех этапах развития информационных систем. Наиболее рас­ пространенными системами этой категории являются системы текстового поиска, задача кото­ рых заключается в поиске по заданной коллекции документов на естественном языке (ЕЯ) документов, удовлетворяющих информационным потребностям пользователей. В данной работе представлены ос­ новные принципы текстового поиска, методы обра­ ботки естественного языка и их использование в моделях поиска. Методы информационного поиска и обработка текстов на естественном языке Значительное место в технологиях текстового по­ иска занимает обработка ЕЯ. Под обработкой ЕЯ (Natural Language Processing, NLP) понимается ре­ шение задач, связанных с пониманием, анализом, выполнением различных операций над текстами, а так же их генерацией [6]. Примеры подобных задач: классификация, кластеризация хранимых коллекций документов, глубинный анализ текстов, перевод до­ кументов с одного языка на другой и т.д. Все многообразие методов информационного по­ иска основываются на обработке и анализе текстов индексируемых документов . Большинство ИПС являются системами с предпроцессингом - предвари­ тельной обработкой (индексированием) всех имею­ щихся в системе документов. Исключения составля­ ют метапоисковые системы [9]. Перечислим основ­ ные трудности, возникающие при обработке текстов на ЕЯ: • проблема синонимии; • проблема омонимии; • устойчивые сочетания слов; • морфологические вариации. Проблема синонимии. Одно понятие может быть выражено различными словами. В результате реле­ вантные документы, в которых используются синони­ мы понятий, указанных пользователем в запросе, могут быть не обнаружены системой. Проблема омонимии и явлений «смежных с омони­ мией». Грамматические омонимы - разные по значе­ нию слова, но совпадающие по написанию в отдель­ ных грамматических формах. Это могут быть * Под документом подразумевается некий объект, содержащий информацию в зафиксированном виде. Документы могут содер­ жать тексты на естественном или формализованном языке, изо­ бражения, звуковую информацию и т.д. 29

RkJQdWJsaXNoZXIy MTUzNzYz