Труды КНЦ (Технические науки вып. 3/2024(15))
сущностями. Например, один слой может представлять социальные связи, другой — профессиональные отношения, а третий — взаимодействия в определенном контексте. Известным примером многослойного ГЗ является KnowWhereGraph [9]. На текущий момент данный граф содержит около 13 миллиардов триплетов и более 30 слоев, включающих пространственные данные (места, регионы), данные о населении, об экстремальных явлениях, инфраструктуре, сельскохозяйственные данные и др. Таким образом, он обеспечивает достаточную полноту и актуальность данных, необходимых для решения различных прикладных задач. В этой работе, в отличие от KnowWhereGraph, многослойность отражает разные контексты совместной встречаемости терминов. Предполагается, что такие контекстные слои зависят от характера исходных данных и решаемой задачи. Технология формирования многослойного графа знаний на основе тематического моделирования В рамках настоящей работы рассматривается разбиение на контексты в соответствии с тематическим распределением документов, полученным на основе тематической модели. Такое распределение позволяет посмотреть на данные с точки зрения некоторых скрытых тем, выделенных в наборе данных. Вершинами полученного графа будут являться термины, а отношения между ними будут выражаться через взвешенную направленную ассоциативную связь, полученную на основе статистики совместного употребления данных терминов, принимая во внимание результаты тематического моделирования. Предполагается, что разбиение графа на контексты, которые могут рассматриваться как слои графа или подграфы, на основе тематического распределения документов позволит выделять значимые связи, даже невзирая на малый вес темы в наборе данных. Справедливо заметить, что эффективность такого подхода будет в том числе зависеть от свойств и качества полученной тематической модели. Формально предлагаемую технологию, использующую тематическую модель в качестве основы для разбиения на контексты (рис. 1), можно представить следующим образом. Дано: D — набор документов различной тематики; L Q D X D — асимметричное транзитивное отношение «является откликом», определяет на множестве документов структуру коммуникации. d 1Ld 2 означает, что документ (пост или комментарий) d 2 является откликом на документ d1. Структура коммуникации состоит из веток обсуждения, представляющих собой последовательности В г документов из D (Вг Q D), удовлетворяющие условию: В г = { d1, ..., dNj: Vi < j, d iLd j . Полная структура коммуникации (полное дерево) задается корневым документом d и всеми транзитивно связанными с ним документами B r ( d ). Найти: G = (V, Е, К, WK, wE, s, t, г), где V — множество вершин — уникальные термины из набора документов D; Е — множество ребер — взвешенные направленные ассоциативные отношения между терминами; К — множество меток контекстов, заданное темами тематической модели; WK — множество весов ребер, заданное для каждого контекста; w e :E ^ WK — функция, присваивающая вес каждому ребру; s: Е — функция, присваивающая каждому ребру начальную вершину; t: Е — функция, присваивающая каждому ребру конечную вершину; г: Е ^ К — функция, присваивающая каждому ребру метку контекста. Первым этапом извлекаются термины из D следующим образом: T e rmE x trM e thod (D , L , ...) ^ В гт — структура коммуникации В г с выделенными в ней терминами Т. Вторым этапом строится тематическая модель на основе В гт и заданного количества тем К : Top icModelConst(BrT, К) ^ {Ѳ, Ф}, где Ѳ — матрица, задающая распределение документов по темам; Ф — матрица, задающая распределение терминов по темам. Третьим этапом производится построение и заполнение тематизированных матриц совместного употребления терминов: f (В гр, Ѳ) ^ СМ — набор матриц совместного употребления, где элемент матрицы совместного употребления по к-й теме вычисляется по формуле: Труды Кольского научного центра РАН. Серия: Технические науки. 2024. Т. 15, № 3. С. 50-60. Transactions of the Kola Science Centre of RAS. Series: Engineering Sciences. 2024. Vol. 15, No. 3. P. 50-60. © Пимешков В. К., Никонорова М. Л., Шишаев М. Г., Вишняков И. Г., 2024 53
Made with FlippingBook
RkJQdWJsaXNoZXIy MTUzNzYz