Труды КНЦ вып.9 (ИНФОРМАЦИОННЫЕ ТЕХНОЛОГИИ) вып. 9/2019(10)

DOI: 10.25702/KSC.2307-5252.2019.9.91-97 УДК 004.047, 004.912 В. В. Диковицкий, М. Г. Шишаев, В. К. Пимешков Институт информатики и математического моделирования ФИЦ КНЦ РАН МЕТОД АВТОМАТИЗИРОВАННОГО ИЗВЛЕЧЕНИЯ ПОНЯТИЙ И ПАРАДИГМАТИЧЕСКИХ ОТНОШЕНИЙ ТЕЗАУРУСА ИЗ ТЕКСТОВ НА ЕСТЕСТВЕННОМ ЯЗЫКЕ НА БАЗЕ ЛЕКСИКО-СИНТАКСИЧЕСКИХ ШАБЛОНОВ Аннотация Работа посвящена проблеме автоматизации извлечения знаний из неструктурированного текста с целью их прикладного использования в задачах извлечения фактов, формирования и пополнения тезауруса, анализа согласованности документов. Для извлечения и структурирования знаний используются методы статистического и лингвистического анализа. Ключевые слова: Семантика, анализ текста, лексико-синтаксический шаблон. Ѵ.Ѵ. Dikovitskiy, M.G Shisaev, V.K. Pimeshkov METHOD OF AUTOMATED EXTRACTION OF CONCEPTS AND PARADIGMATIC RELATIONS OF THESAURUS FROM TEXTS IN NATURAL LANGUAGE ON THE BASIS OF LEXICO-SYNTACTIC TEMPLATES Abstract The work is devoted to the problem of automating the extraction of knowledge from unstructured text with the aim of their application in the tasks of extracting facts, the formation and replenishment of a thesaurus, analysis of document consistency. To extract and structure knowledge, methods of statistical and linguistic analysis are used. Keywords: Semantics, text analysis, lexical and syntactic template. Введение С ростом объемов текстовых данных, подлежащих обработке в рамках различных прикладных проблем, становится все более актуальной задача автоматического извлечения и обработки формализованных знаний. В настоящее время существует множество методов и подходов к автоматизированному анализу текста. Семейство технологий глубинного анализа текстов их смысла и представления его в базах знаний объединено общим названием Text Mining [1]. Разрабатываемые на основе статистического и лингвистического анализа, методов искусственного интеллекта, эти технологии предназначены для проведения смыслового анализа. [2] Методами обработки текстов на естественном языке, в основе которых лежит формирование и использование ассоциативно-онтологического представления данных [3] успешно решаются задачи выделения признаков текста для построения поисковых индексов, автоматического реферирования научных и технических документов, отнесения текста к предметной области, поиска в коллекции документов. Интегральный подход к анализу структуры предложения с точки зрения функционально-коммуникативной грамматики предложен Г. А. Золотовой [4] и реализован в работе [5]. В работе [6] представлен семантический анализ 91