Труды КНЦ (Технические науки вып. 3/2024(15))

В обоих случаях, с применением ТМ и без, было замечено, что в матрицах преобладают значения совместного употребления близкие к 0. Соответствующие отношения, со значениями близкими к нулю, говорят о том, что совместное употребление значительного количества терминов наблюдалось всего лишь один или пару раз во всем датасете, следовательно, эта связь не является значимой в рамках рассматриваемой модели знаний. Поэтому было принято решение исключить из матриц такие незначимые связи путем выделения значимых связей. Для выделения значимых связей из тематизированной матрицы на первом этапе для каждой темы был выбран процент самых сильных связей, значение которого соответствует доле терминов в конкретной теме (значения получены на этапе обучения тематической модели). На втором этапе была проведена оценка значимости в соответствии с эвристически выведенным порогом значимости: Br£ ( i , j ) > х ( х ( в г £ (і , ) ) , х ( в г £ ( ,; ) } , х ( В г £ ) ) , где х (В г£ (і , )) — среднее значение совместного употребления для термина і; х ( в г £ (,_/)) — среднее значение совместного употребления для термина j; x(Brj^) — среднее значение совместного употребления для всех терминов в соответствующей матрице (теме) к. При этом среднее значение совместного употребления для термина рассчитывалось как среднее суммы векторов входящих и исходящих отношений. Для матрицы без ТМ применялась только фильтрация по порогу значимости. В результате такой фильтрации отношений их количество значительно сократилось — c 754 993 до значений, указанных в табл. 1. Там же отражено изменение количества уникальных терминов с хотя бы одной ненулевой связью для каждой матрицы соответственно. До фильтрации в каждой матрице было 11 889 таких терминов. Труды Кольского научного центра РАН. Серия: Технические науки. 2024. Т. 15, № 3. С. 50-60. Transactions of the Kola Science Centre of RAS. Series: Engineering Sciences. 2024. Vol. 15, No. 3. P. 50-60. Таблица 1 Количество отношений и терминов в полученных матрицах после фильтрации Матрица Количество отношений Количество терминов Без ТМ 117716 6592 Тема № 1 7475 520 Тема № 2 25215 2536 Тема № 3 14555 1875 Тема № 4 16356 1912 Тема № 5 27987 2832 Тема № 6 12004 1390 Тема № 7 9827 968 Стоит заметить, что без фильтрации вовсе мы могли получить практически полносвязный граф, что не позволит эффективно отслеживать какие-либо связи в такой структуре. С другой стороны, при слишком строгой фильтрации мы однозначно рискуем удалить нужные связи и, соответственно, термины. В данном случае способ фильтрации полагался на специфику анализируемых данных, поэтому оценка его эффективности остается открытой задачей. По факту наличия отношений между терминами полученные тематические матрицы в значительной степени пересекаются с матрицей без ТМ (рис. 4). Это говорит о том, что после удаления незначимых отношений предложенным порогом фильтрации матрицы все еще близки по структуре, и большая часть связей, присутствующих в тематизированном наборе матриц, также присутствуют и в матрице без ТМ. При этом в некоторых из них все же есть отношения, которые были удалены при фильтрации из матрицы без ТМ. Этот факт, возможно, подтверждает гипотезу о том, что тематизированные ГЗ способствуют выделению некоторых связей на общем фоне. © Пимешков В. К., Никонорова М. Л., Шишаев М. Г., Вишняков И. Г., 2024 56

RkJQdWJsaXNoZXIy MTUzNzYz