Труды КНЦ (Технические науки вып. 3/2024(15))
Труды Кольского научного центра РАН. Серия: Технические науки. 2024. Т. 15, № 3. С. 50-60. Transactions of the Kola Science Centre of RAS. Series: Engineering Sciences. 2024. Vol. 15, No. 3. P. 50-60. Рис. 2. Изменение метрики согласованности в зависимости от количества тем Далее на основе набора структур и выбранной тематической модели был произведен подсчет статистики совместного употребления терминов. Значения совместного употребления рассчитывались отдельно для каждой структуры методом, в рамках которого предполагалось, что, во-первых, термины связаны между собой в рамках каждого документа, а, во-вторых, термины источника приводят к появлению термина в реакции и, соответственно, термины источника связаны с каждым термином в реакциях. При этом пары идентичных терминов игнорировались для исключения петель в графе. Пример расчета совместного употребления таким методом приведен на рис. 3. Далее значения совместного употребления (Brfj ), в соответствии с формулой (1), умножались на соответствующий компонент вектора распределения документа по темам (Ѳ^ гр ) и на сумму коэффициентов влияния терминов. Полученные значения фиксировались в наборе матриц размером N X N , где N — это число уникальных терминов в датасете (13 171), в ячейке, соответствующей текущей теме и терминам. Таким образом, мы получили набор матриц, в котором каждая матрица отражает определенный слой графа, соответствующий одной из тем, выделенных тематической моделью. Рис. 3. Пример работыметода подсчета совместного употребления терминов Для того, чтобы оценить эффект от разбиения графа на темы, был построен аналогичный граф, но без применения тематической модели. Он строился без учета распределения документов по темам, соответственно, в ячейках матрицы фиксировались просто значения совместного употребления терминов без дополнительных коэффициентов. © Пимешков В. К., Никонорова М. Л., Шишаев М. Г., Вишняков И. Г., 2024 55
Made with FlippingBook
RkJQdWJsaXNoZXIy MTUzNzYz