Труды КНЦ (Технические науки) 2/2022(13).

Труды Кольского научного центра РАН. Серия: Технические науки. 2022. Т. 13, № 2. С. 31-45. Transactions of the Kola Science Centre of RAS. Series: Engineering Sciences. 2022. Vol. 13, No. 2. P. 31-45. Отметим, что формально в роли семантического отношения могут выступать различные связи между понятиями; степень «семантичности» отношения определяется его применимостью для решения прикладных задач, на которые ориентирована формируемая семантическая модель. Как правило, к категории семантических относят такие отношения, как «эквивалентность», «класс — подкласс», «часть — целое» и другие, устанавливающие систему понятий, пригодную для организации полезного в контексте решения прикладных задач машинного вывода [3, 4]. Факты в виде троек позволяют удобно организовывать знания о мире. Они выступают в качестве замены человеческого знания для машины, и они явно или неявно сокрыты в естественно-языковом тексте. Также стоит заметить, что отношения могут быть комплексными, и, хотя комплексные отношения могут быть разбиты на бинарные и для них можно будет применить методы извлечения бинарных отношений, это приведет к соответствующему падению точности [5]. Методы извлечения знаний В соответствии с описанными выше концепциями представления знаний, процесс их извлечения может быть разделен на два основных этапа: извлечение концептов (concept extraction) и извлечение отношений между ними (relation extraction). Говоря дальше о системах извлечения знаний, подразумевается комбинация систем извлечения концептов и отношений. Системы извлечения знаний могут быть разделены в контексте постановки задачи и в отношении рассматриваемого естественного языка (или языков) (рис. 2). В контексте постановки задачи системы можно разделить на открытые, извлекающие все возможные отношения между концептами в корпусе, и закрытые, извлекающие, соответственно, только отношения из заданного заранее набора. Открытая Закрытая Количество языков Языковые ресурсы Рис. 2. Общая классификация методов извлечения знаний из естественно-языковых текстов В отношении рассматриваемого естественного языка (или языков) системы извлечения знаний можно дополнительно разделить по двум признакам. Первый — это количество языков, в рамках которого возможно разделение систем на моноязыковые, биязыковые и мультиязыковые, которые работают с одним, двумя или множеством языков соответственно. Количество рассматриваемых языков, как и объемы доступных для них ресурсов (под ресурсами в данном случае понимаются источники и носители данных о языке, которые могут быть тем или иным образом использованы при анализе, — тезаурусы, размеченные датасеты, эксперты и т. п.), играют важную роль в рамках задачи извлечения знаний. Говоря о количестве рассматриваемых языков, нужно принимать во внимание, что языки могут функционировать по совершенно разным правилам. Как следствие, мультиязыковые системы стремятся использовать методы, не зависящие от языка, или комбинации методов, позволяющие работать со всеми рассматриваемыми естественными языками. © Пимешков В. К., Шишаев М. Г., 2022 33

RkJQdWJsaXNoZXIy MTUzNzYz