Труды КНЦ вып.12 (ИНФОРМАЦИОННЫЕ ТЕХНОЛОГИИ вып. 5/2021(12))

сформирован на основе словаря W2V путем ограничения по частоте встречаемости слова или словосочетания и ограничен 2000 слов. Топ 20 тем: народ, год, культура, север, человек, язык, малочисленный_народ, развитие, Арктика, Россия, район, шаман, регион, мир, территория, жизнь, население, работа, деятельность, время. Для определения значимого термина, наиболее точно обозначающего тему, использовался алгоритм усреднения векторных представлений слов кластера, встроенный в библиотеку Word2Vec. 2. Технология идентификации значимых понятий предметной области на основе анализа контекста Применение данной технологии на втором этапе предполагает предварительное обучение используемой в рамках нее языковой модели, которая далее применяется для выявления значимых понятий на основе анализа контекстов. Обучение языковой модели осуществляется на основе обучающей выборки, которая автоматически формируется путем поиска в наборе текстов предметной области предложений, содержащих отдельные лексемы и именные группы, соответствующие понятиям из базового набора, сформированного на первом этапе. Основной принцип генерации образцов обучающей выборки состоит в анализе предложений текстов предметной области с целью выявления тех предложений, которые содержат понятия базового набора. В результате анализа для каждого такого предложения создается метка, определяющее содержащееся в предложении понятие и границы его положения. Например, для предложения <■«Альтернативный путь через Санкт-Петербург вокруг Скандинавии решает проблему со вместимостью судна (можно сразу взять большую партию), но возникают сложности с таможенным сопровождением, а также увеличивается транзитное время и растет бюджет доставки.», содержащего понятие «Санкт-Петербург» создается метка вида (26, 41, “CITY”). Реализация данного принципа может потребовать существенное количество времени так как для каждого понятия базового набора требуется перебрать все предложения текста. Для оптимизации временных затрат на этапе подготовки корпуса для каждого текста формируется хэшированный набор входящих в него лексем. При этом каждая лексема приводится к нормальной форме. Это позволяет перед выполнением процедуры поиска предложений текста, содержащих понятие из базового набора, быстро проверить факт наличия в нем соответствующей понятию лексемы и лишь в случае успеха осуществлять последующий перебор его предложений. С целью оптимизации также выполняется сегментирование текстового корпуса с последующей параллельной обработкой нескольких секций. Основной проблемой при таком способе формирования обучающей выборки стало определение границ понятий, состоящих из нескольких лексем. В таком случае в предложениях лексемы одного понятия могли быть представлены частично и/или не следовать в порядке, заданном понятием, а перемежаться с другими лексемами предложения. На данном этапе развития технологии рассматриваются понятия, состоящие из одной или двух лексем, следующих друг за другом, при этом границы устанавливаются по первому и последнему вхождению лексем понятия в предложение. Для дальнейшего совершенствования определения границ их поиск был вынесен в отдельный подпроцесс. 16

RkJQdWJsaXNoZXIy MTUzNzYz