Труды КНЦ вып.12 (ИНФОРМАЦИОННЫЕ ТЕХНОЛОГИИ вып. 5/2021(12))

распознаванию данных контекстов. Однако результаты первого эксперимента указывают, что этого добиться не удалось. Отсутствие результатов во втором эксперименте также связано с тем, что исходная гипотеза о наличии новых понятий в одних контекстах с исходными понятиями будет работать в том случае, если исходные понятия будут связаны с некоторыми “категориями”. При этом анализируемые тексты должны содержать понятия, соответствующие этим “категориям”. Например, таким понятием, относящимся к “категории”, может быть некоторый тип транспортного средства. В этом случае, если тексты будут включать описания транспортных средств, то можно предположить, что гипотеза будет срабатывать чаще. Отсюда также можно сделать вывод о том, что необходимо определить и другие виды гипотез, позволяющих определять контексты новых понятий на основе имеющихся. Это позволит потенциально увеличить размер и вариативность (частота встречаемости термина) обучающей выборки за счет извлечения большего числа предложений из анализируемых текстов. Таким образом, в рамках следующего этапа исследования планируется увеличить размер текстового корпуса, а также дополнить процедуру формирования обучающей выборки реализацией новых гипотез обнаружения контекстов новых понятий. Заключение Задача автоматизированного извлечения значимых понятий предметной области из текстов на естественном языке, несмотря на актуальность и уделяемое большое внимание, остается не до конца решенной. Основными проблемами являются создание эффективных методов ее решения, основанных на обучении без учителя, дифференциация значимых и общеупотребимых понятий, выделение редко используемых понятий, возможность извлечения значимых предметных понятий из коротких текстов произвольной тематики. В данной работе предложена двухэтапная технология извлечения предметных понятий, основанная на специальных (основанных на моделях машинного обучения) алгоритмах тематического моделирования и анализа контекста, имеющая потенциал к решению вышеназванных проблем. На данном этапе работ проведена экспериментальная проверка работоспособности технологии и определены перспективы ее дальнейшей разработки. Примечания *Адаптированный перевод статьи: Shishaev M.G. Concept and Preliminary Testing ofthe Two-Stage Technology of Terminology Extraction on the Basis of Topic Modeling and Context Analysis / M.G. Shishaev, V.V. Dikovitsky, P.A. Lomov // Informatics and Cybernetics in Intelligent Systems: Lecture Notes in Networks and Systems / ed. R. Silhavy. - Cham: Springer International Publishing, 2021. - P. 636-644 1В контексте данной статьи мы не будем делать различия между словами «термин» и «понятие», имея в виду под «термином» лексическое обозначение понятия предметной области. Строго говоря, здесь и далее речь идет о выявлении именно лексических единиц, соответствующих понятиям предметной области, то есть сигнификатов. 18

RkJQdWJsaXNoZXIy MTUzNzYz