Труды КНЦ (Технические науки вып. 3/2024(15))
Acknowledgments: the study was carried out within the framework of the Putilov Institute for Informatics and Mathematical Modeling of the Kola Science Centre of the Russian Academy of Sciences state assignment of the Ministry of Science and Higher Education of the Russian Federation, research topic “Methodology for creating information and analytical systems to support the management of regional development based on formative artificial intelligence and big data” (registration number of the research topic 122022800551-0). For citation: Pimeshkov V. K., Nikonorova M. L., Shishaev M. G., Vishnyakov I. G. Formation of multilayer knowledge graphs based on thematic texts modeling // T ransactions of the Kola Science Centre of RAS. Series: Engineering Sciences. 2024. Vol. 15, No. 3. P. 50-60. doi:10.37614/2949.1215.2024.15.3.004. Введение Графы знаний (ГЗ) являются эффективным способом формализованного представления знаний, подразумевающих использование в автоматизированных интеллектуальных информационных системах различного назначения. Привлекательной стороной ГЗ является тот факт, что аккумулируемые и систематизируемые в их рамках знания извлекаются из источников данных, в противовес общепринятому подходу к построению онтологий, где система знаний формируется априорно экспертами и затем используется при формировании и обработке наборов данных. То есть в случае ГЗ данные играют роль источника эталонных структур понятий и отношений в системе знаний. Это обусловливает высокий уровень актуальности содержащихся в ГЗ знаний и их адаптацию к динамике пользовательских представлений о предметной области. Проблемным местом ГЗ является то, что при извлечении знаний из данных формируется мультипредметная система знаний, охватывающая в общем случае множество предметных областей. Это порождает проблему множественности возможных (в том числе противоречивых) интерпретаций знаний, а также усложняет техническую задачу оперирования системой знаний в силу ее большого объема. Решением этой проблемы является построение тематизированных (предметно-ориентированных) ГЗ, однако это, в свою очередь, сужает область применимости формируемого ГЗ, что является неприемлемым в некоторых прикладных задачах. Компромиссом между специфичностью и универсальностью ГЗ является ГЗ, имеющий внутреннее разбиение на подграфы, ориентированные на ту или иную предметную область (в общем случае — на специфику интерпретации знаний, требуемую для эффективного решения прикладных задач в предполагаемой сфере применения ГЗ). Такие ГЗ именуются многослойными. В настоящей работе рассматривается проблематика построения многослойных ГЗ в контексте прикладной задачи мониторинга социальных медиа с целью анализа контента информационных коммуникаций пользователей. Эта задача является характерным примером проблемной области, описываемой множественностью и динамичностью систем семантических понятий и отношений, используемых пользователями. Для автоматизации и интеллектуализации обработки данных в таких условиях требуются адекватные инструменты. Главной идеей работы является использование тематической модели корпуса документов в качестве основы для секционирования ГЗ в соответствии с наиболее адекватными коммуницирующим сообществам стереотипными интерпретациями понятий из различных предметных областей. Цель исследования — оценка эффекта от использования тематического моделирования при построении многослойного ГЗ в сравнении с ГЗ, построенным традиционным способом. Графы знаний как инструмент интеллектуальной обработки данных предметной области ГЗ описывает концепты или сущности реального мира и отношения между ними способом, близким к представлению (мышлению) человека, и в виде, пригодном для компьютерной обработки. Формально ГЗ можно представить в виде [1]: G := ( Ѵ ,Е , г ,Ъ ѵ ,Ъ е , іѵ , і е ), где V — множество вершин, выраженное уникальными концептами или терминами; Е — множество ребер, заданное выделенными между концептами отношениями; г \ Е ^ {{ х,у}: х , у Е V} — функция, присваивающая каждому ребру неупорядоченную пару вершин; І,ѵ — множество меток вершин; І,Е — множество меток ребер; Іу'-Ѵ ^ 'L y — функция, определяющая метки вершин; і е :Е ^ hE — функция, определяющая метки ребер. Труды Кольского научного центра РАН. Серия: Технические науки. 2024. Т. 15, № 3. С. 50-60. Transactions of the Kola Science Centre of RAS. Series: Engineering Sciences. 2024. Vol. 15, No. 3. P. 50-60. © Пимешков В. К., Никонорова М. Л., Шишаев М. Г., Вишняков И. Г., 2024 51
Made with FlippingBook
RkJQdWJsaXNoZXIy MTUzNzYz