Труды КНЦ (Технические науки) 2/2022(13).

Введение Создание и эксплуатация информационных систем, основанных на знаниях, постепенно становится повседневной практикой. Ключевой проблемой (в особенности в условиях динамичности структуры и состава знаний, используемых в рамках системы) является формирование баз знаний, адекватных текущим представлениям экспертов и пользователей о предметной области. В таких условиях всё большую актуальность приобретают методы и технологии автоматизированного извлечения знаний из текстов на естественном языке, поскольку в текстовых источниках «естественным» образом аккумулируются актуальные представления специалистов о той или иной предметной области. Несмотря на достаточно длительную историю развития методов и технологий извлечения знаний из текстов, данная проблемная область остается динамично развивающейся: с появлением новых инструментов анализа текстов (прежде всего, основанных на машинном обучении (МО)) создаются новые методы и технологии их применения к задаче извлечения знаний. В данной работе предпринята попытка систематизации сформировавшихся на сегодняшний день подходов к автоматизированному извлечению знаний из текстовых источников. При этом представленный в статье обзор не претендует на полноту: в работе рассмотрены лишь некоторые примеры реализации тех или иных подходов к решению задачи. Извлечение знаний В общем виде извлечение знаний представляет собой процесс преобразования данных в знания, необходимые для решения последующих, иерархически вышестоящих (прикладных) задач. Под термином «данные» в этом случае подразумевается любой естественно-языковой текст. Под знаниями же будем понимать упорядоченные и формализованные сведения, необходимые для решения конкретных прикладных задач. Таким образом, понятие «знание» обусловлено содержательным аспектом метазадачи, в рамках которой осуществляется обработка текстовой информации. Процесс извлечения знаний можно формально записать в виде {Doc*, і = 1, ...,N} ^ , где — это оператор, осуществляющий преобразование множества текстовых данных {DoCj, і = 1, ...,N} в знания ^ . Строго говоря, сначала из данных извлекается информация, которая затем встраивается в заданную систему знаний, что и дает возможность решать иерархически вышестоящие задачи в рамках рассматриваемой метазадачи (рис. 1). Под информацией понимаются некоторые сведения и факты в рамках определенного контекста [1]. В рамках задачи интеллектуального анализа текста, извлечение информации — это процесс распознавания в тексте некоторых сущностей, отношений, событий или другой фактографической информации, то есть получение из текста структурированных данных, пригодных для включения в целевую систему знаний и машинной интерпретации [2]. Труды Кольского научного центра РАН. Серия: Технические науки. 2022. Т. 13, № 2. С. 31-45. Transactions of the Kola Science Centre of RAS. Series: Engineering Sciences. 2022. Vol. 13, No. 2. P. 31-45. Текст Информация Знания Рис. 1. Процесс извлечения знаний В качестве способа представлений знаний рассматриваются объектные, в частности сетевые, модели, представляющие предметную область как множество понятий, связанных отношениями из заданного набора. В общем случае сетевую модель можно представить в виде множества троек, задающих факты или истинные утверждения (эквивалент ребра в сетевой модели, связывающего пару вершин): (c ;,rfe,cy), где Cj, Су— понятия; r fe— некоторое семантическое отношение (не обязательно симметричное), имеющее место между ними. © Пимешков В. К., Шишаев М. Г., 2022 32