Труды КНЦ (Технические науки вып. 3/2024(15))
Иногда о ГЗ говорят как о семантических сетях или сетях знаний, извлеченных из данных реального мира. В настоящее время ГЗ используются в задачах поиска информации, вопросно ответных системах, системах поддержки принятия решений, рекомендательных системах [2]. ГЗ, как и другие модели знаний, могут быть двух типов — общего назначения и специфичные для предметной области. Первый тип, как правило, представляет собой довольно обширные графы, содержащие знания из множества предметных областей (например, Wikidata, DBpedia и др.), в то время как второй тип ориентирован на более узкую область или отрасль или на решение конкретной задачи. ГЗ неразрывно связаны с технологией их построения и использования, включающей этапы извлечения знаний (knowledge extraction), слияния знаний (knowledge fusion), обработки знаний (knowledge processing) [3]. Извлечение знаний — первостепенная и основная задача при построении ГЗ, в рамках которой из необработанных данных извлекаются различные сущности, атрибуты и отношения. Слияние знаний предполагает объединение одинаковых объектов из различных источников для получения более точной и согласованной информации, что способствует поддержанию ГЗ в актуальном состоянии. Данный этап включает в себя подзадачу согласования объектов (entity alignment) для обнаружения семантически одинаковых объектов в разных источниках и подзадачу устранения неоднозначности объектов (entity disambiguation) для сопоставления объектов из входных данных с соответствующими уникальными объектами в целевом ГЗ. Обработка знаний предполагает обработку простых фактов и формирование структурированных систем знаний с данными высокого качества. Обычно включает в себя построение онтологий, оценку качества и иногда логический вывод. Говоря о применении ГЗ для решения различных задач, так или иначе связанных с анализом данных социальными медиа, можно выделить следующие работы. Авторы работы [4] представили ГЗ, построенный на основе данных социальных сетей, для обнаружения фейковых новостей. В основе графа лежит онтология Fandet, предназначенная для представления сложных и часто неполных данных социальных сетей, а также облегчения их анализа. В работе [5] авторы используют ГЗ в задаче деанонимизации группы людей. Они моделируют начальные знания злоумышленника при помощи ГЗ, и в дальнейшем используют его для моделирования двух этапов атаки — деанонимизации и выведение конфиденциальной информации (privacy inference). Такая модель позволяет лучше описать процесс атаки и количественно оценить степень раскрытия конфиденциальной информации. Авторы исследования [6] строят ГЗ на основе новостных статей, посвященных COVID-19. Такой граф обеспечивает инфраструктуру для анализа данных социальных медиа, связанных с COVID-19, которая может быть полезна для исследователей, специалистов по обработке данных и организаций. В работе [7] предлагают архитектуру и прототип платформы, включающей ГЗ для поддержки работы журналистов некоторой исходной информацией в рамках вычислительной журналистики. Тематические ГЗ, в отличии от обычных, как правило, отражают конкретную узкую тематику, например, аккумуляторы электромобиля, и содержат подробные знания предметной области, включая специализированные сущности и тройки. Авторами работы [8] предлагается фреймворк для автоматизированного построения таких «тематизированных» (theme-specific) ГЗ. Данный фреймворк принимает на вход необработанный тематический корпус и создает ГЗ, который включает в себя значимые сущности и отношения между ними в рамках заданной темы. Создание графа начинается с построения онтологии сущностей темы из «Википедии», на основе которой затем генерируется отношения-кандидаты с помощью больших языковых моделей (LLM) для построения онтологии отношений. Далее, чтобы проанализировать документы из тематического корпуса, авторы сначала сопоставляют извлеченные пары сущностей с онтологией и извлекают отношения-кандидаты. Наконец, авторы учитывают контекст употребления сущностей совместно с онтологией отношений для окончательного определения отношений между сущностями и, соответственно, построения ГЗ. По мере появления более сложных данных и, соответственно, необходимости разработки более сложных систем знаний, свое развитие получила концепция многослойных ГЗ. Ключевой особенностью таких графов является представление знаний с помощью нескольких слоев, уровней или измерений. Каждый такой слой в графе может представлять различные типы отношений между Труды Кольского научного центра РАН. Серия: Технические науки. 2024. Т. 15, № 3. С. 50-60. Transactions of the Kola Science Centre of RAS. Series: Engineering Sciences. 2024. Vol. 15, No. 3. P. 50-60. © Пимешков В. К., Никонорова М. Л., Шишаев М. Г., Вишняков И. Г., 2024 52
Made with FlippingBook
RkJQdWJsaXNoZXIy MTUzNzYz