Труды КНЦ (Технические науки) 2/2022(13).
не получилось, то система дополнительно принимает во внимание рейтинг, выставленный классификатором, и выбирает класс по следующему правилу: если большинство предложений определенного класса имеют рейтинг больше выставленного порога, а другие наборы предложений в других классах имеют рейтинги ниже этого порога, то отношению персонажей присваивается первый (имеющий больший рейтинг) класс. Если же классифицировать отношение снова не получилось, предпринимается попытка классификации с помощью правил, на основе схожести отобранных предложений по отношению к тренировочному датасету. С помощью стороннего сервиса производится оценка схожести отобранных предложений с предложениями из тренировочного датасета. Отношению персонажей присваивается класс, соответствующий классу тренировочного предложения, набравшего наибольшее количество наиболее схожих (по отношению к нему) предложений из текста. В результате работы системы выявляются персонажи и отношения между ними в рамках рассматриваемого текста. Заключение Приведенный обзор показывает, что спектр методов, применяемых для решения задач извлечения знаний, весьма обширный. Применяются различные методы на основе правил или шаблонов, статистические методы, методы на основе внешних источников, МО и их различные комбинации в виде гибридных методов. Во многих случаях довольно сложно провести четкую границу между различными категориями методов извлечения понятий и отношений. Так, методы МО в конечном итоге базируются на статистических оценках имеющихся наблюдений. Кроме того, как правило, используемые для тренировки соответствующих моделей МО признаки являются результатом некоторой предобработки исходных данных с применением тех же лингвистических (на основе шаблонов) или статистических методов. Формализация задачи и построение классификации усложняется также и тем, что сами ключевые в контексте рассматриваемой задачи понятия — «данные», «информация» и «знания» — так и не имеют устоявшихся определений и могут трактоваться по-разному в зависимости от предметной области или взглядов автора. Знания, помимо всего, необходимо еще и структурировать, и в этом вопросе тоже нет единого мнения о том, как структурировать человеческие знания в вид, пригодный и удобный для машинной обработки. Выбор конкретного метода в большей степени определяется решаемой практической задачей, рассматриваемыми языками и доступными в текущем контексте языковыми ресурсами. Список источников 1. Musaev A. A., Grigoriev D. A. Extracting knowledge from text messages: overview and state-of-the-art // Computer Research and Modeling. 2021. Vol. 13, № 6. P. 1291-1315. 2. A Survey of Information Extraction Based on Deep Learning / Y. Yang [et al.] // Applied Sciences. 2022. Vol. 12, № 19. P. 9691. 3. Диковицкий В. В., Шишаев М. Г., Пимешков В. К. Метод автоматизированного извлечения понятий и парадигматических отношений тезауруса из текстов на естественном языке на базе лексико-синтаксических шаблонов // Труды Кольского научного центра РАН. 2019. Т. 10, № 9-9. 4. Пимешков В. К., Диковицкий В. В., Шишаев М. Г. Извлечение отношений тезауруса из текстов на естественном языке с использованием статистических и лингвистических методов // Труды Кольского научного центра РАН. 2020. Т. 11, № 8 (11). 5. Zhou D., Zhong D., He Y. Biomedical Relation Extraction: From Binary to Complex // Computational and Mathematical Methods in Medicine. 2014. Vol. 2014. P. e298473. 6. Magueresse A., Carles V. Heetderks E. Low-resource Languages: A Review of Past Work and Future Challenges. 2020. 7. Clinical concept extraction: A methodology review / S. Fu [et al.] // Journal of Biomedical Informatics. 2020. Vol. 109. Clinical concept extraction. P. 103526. Труды Кольского научного центра РАН. Серия: Технические науки. 2022. Т. 13, № 2. С. 31-45. Transactions of the Kola Science Centre of RAS. Series: Engineering Sciences. 2022. Vol. 13, No. 2. P. 31-45. © Пимешков В. К., Шишаев М. Г., 2022 41
Made with FlippingBook
RkJQdWJsaXNoZXIy MTUzNzYz