Труды КНЦ вып.12 (ИНФОРМАЦИОННЫЕ ТЕХНОЛОГИИ вып. 5/2021(12))

The article was supported by the federal budget to carry out the state task of the FRC KSC RAS No. 0226-2019-0036. The study was funded by RFBR, project number 20-07-00754 A. For citation: Shishaev M.G., Dikovitsky V.V., Lomov P.A. Two-stage technology of automated terminology extraction based on topic modeling and context analysis // Transactions of the Kola Science Centre. Information technologies. Series 12. 2021. Vol. 12, no. 5. P. 10-21. http://dx/doi.org/10.37614/2307-5252.2021.5.12.001. Введение: краткая характеристика задачи «terminology extraction» и общее описание технологии Выделение значимых понятий (терминов1) является одной из первоочередных задач семантического анализа текста, ориентированного на автоматизированное формирование предметных (проблемно-ориентированных) моделей знаний (онтологий). В теоретико-модельной интерпретации это - задача построения сигнатуры модели [1], где понятия представлены множеством непредикатных символов. В лингвистике, выделение понятий можно рассматривать как часть более общей задачи определения семантических ролей лексических единиц (Semantic Role Labeling). Задача автоматизированного выделения понятий из текстов (terminology extraction, automatic term recognition) исследуется довольно давно, ключевые работы в этой области появились еще в конце прошлого века (см., например [2] [3]). Подходы к решению задачи, в зависимости от характера используемых признаков лексических конструкций, принято разделять на лингвистические и статистические, на практике также применяются смешанные подходы [4] [5]. Для выделения понятий используют как методы машинного обучения с учителем, основанные на размеченных данных, так и обучение без учителя. Вторые являются более предпочтительными, но в общем случае уступают по эффективности (скорости и точности работы) методам, использующим размеченные данные. Создание методов извлечения терминов с помощью моделей обучения без учителя относится к актуальной современной проблематике. Например, в [6] авторы предлагают технологию извлечения понятий без учителя, при этом рассматривают контекст употребления понятия в терминах POS, это дает возможность сделать модель (выявляющую понятия), универсальную для разных предметных областей. В целом, для выделения значимых понятий нужно ответить на два ключевых вопроса: 1) какая языковая конструкция (слово или словосочетание) обозначает понятие и 2) относится ли данное понятие к значимым в контексте рассматриваемой предметной области. В рамках второй задачи также приходится решать проблему разделения специфичных (предметных) и общеупотребимых понятий. Как правило, ответ на первый вопрос ищется путем решения задачи выделения именных групп (noun phrases), в том числе - вырожденных, состоящих из одного слова. Для этого имеется достаточно хорошо проработанный арсенал методов, основанных на лексическом и синтаксическом анализе текста. Одним из подходов, основанном на построении дерева зависимостей, (в том числе, использованном в данной работе) является использование нейросетевых синтаксических анализаторов. В данной работе использовался анализатор SyntaxNet [7]. Funding 11

RkJQdWJsaXNoZXIy MTUzNzYz