Труды КНЦ вып.12 (ИНФОРМАЦИОННЫЕ ТЕХНОЛОГИИ вып. 5/2021(12))

После формирования обучающей выборки на ее основе производится обучение языковой модели. В качестве последней выступает языковая модель на основе сверточной нейронной сети из распространенной Python-библиотеки для анализа естественно-языковых текстов SpaCy [16]. Результативность использования данной технологии определяется качеством обученной модели, на которое влияет объем обучающей выборки, а также разнообразие и правильность разметки ее образцов. После обучения модели она применяется в рамках 2 этапа - для обнаружения в текстах предметной области новых понятий, которые встречаются в контекстах, сходных с контекстами употребления понятий базового набора. Обнаруженные таким образом понятия предъявляются эксперту в качестве кандидатов для пополнения набора важных понятий. Экспериментальная оценка технологии В рамках проверки эффективности предложенной технологии было проведено обучение с помощью обучающей выборки, сформированной на основе набора из 157 текстов. Данные тексты были собраны из открытых интернет- сайтов пространственно-логистической тематики. В результате их анализа был получен обучающий набор, содержащий около 97 000 размеченных предложений. Наряду с обучающим набором, был также сформирован тестовый набор, представляющий эталонный результат извлечения важных понятий. Его создание производилось вручную экспертом на основе текстов, не использованных на этапе обучения. В ходе проверки эффективности оценивалась способность модели обнаруживать, как исходные значимые понятия из базового набора, так и новые понятия, используемые в сходных с исходными контекстах. В качестве ориентира в эксперименте также оценивалась мультиязычная модель из фреймворка SpaCy, предназначенная для извлечения именованных сущностей (персон, локаций, организаций) из текстов общей тематики. Эксперимент 1. Обнаружение моделью исходных значимых понятий в тестовом наборе: - обученная модель: точность = 0.88, полнота = 0.15. - мультиязычная модель: точность = 0.104, полнота = 0.077 Эксперимент 2. Обнаружение моделью новых важных понятий, использованных в схожих контекстах: - обученная модель: точность = 0.067, полнота = 0.3. - мультиязычная модель: точность = 0.08, полнота = 0.3 Из результатов первого эксперимента можно видеть, что модель лучше справилась с излечением специфических понятий, чем мультиязычная. Тем самым, можно отметить некоторый позитивный эффект обучения. Низкий результат по полноте вероятно вызван небольшим размером сформированной обучающей выборки. Второй эксперимент показал отсутствие какой-либо результативности в отношении извлечения новых понятий. Это является закономерным следствием низких результатов первого эксперимента, так как модель потенциально может выявлять новые понятия в известных контекстах лишь в том случае, когда сможет обучиться 17