Труды КНЦ (Технические науки) 2/2022(13).
Труды Кольского научного центра РАН. Серия: Технические науки. 2022. Т. 13, № 2. С. 31-45. Transactions of the Kola Science Centre of RAS. Series: Engineering Sciences. 2022. Vol. 13, No. 2. P. 31-45. Рис. 3. Классификация методов извлечения концептов Методы на основе правил полагаются на составленные экспертами вручную правила или шаблоны, основанные на различных лексических, морфологических или контекстуальных особенностях слов и/или словосочетаний. Так, например, в работе [11] используется подход к извлечению многословных терминологий для сербского языка на основе правил, полагающихся на электронные словари и местную грамматику. В ходе работы авторами были разработаны 14 конечных автоматов с выходами, которые извлекают наиболее часто встречающиеся синтаксические структуры, выявленные в результате анализа нескольких сербских терминологических словарей и сербского электронного словаря (рис. 4). Рис. 4. Архитектура системы извлечения многословных терминологий на основе правил В работе [12] используется подход на основе составленных вручную правил для извлечения именованных сущностей для языка урду. В своей работе авторы используют правила, реализуемые с помощью конечных автоматов, основанные на лексических признаках. Их правила основаны на используемом ими корпусе, эвристике или грамматике. Статистические методы. Отличительной особенностью методов данной группы является использование статистического анализа большого количества наблюдений для идентификации концептов (терминов). Следует отметить, что чисто статистический метод, не включающий какой-либо этап синтаксического или лексического анализов, используется редко, в виду того что такой подход может приводить к большому количеству нежелательной терминологии [13]. Так, например, метод, используемый в работе [14], основан на простом извлечении двух стоящих рядом слов с их последующим взвешиванием на основе Tf-Idf-метрики, а в работе [15] сначала извлекаются последовательности слов различной длины и затем оцениваются с помощью эмпирической меры, основанной на длине и частоте терминов. © Пимешков В. К., Шишаев М. Г., 2022 35
Made with FlippingBook
RkJQdWJsaXNoZXIy MTUzNzYz