Труды КНЦ вып.9 (ИНФОРМАЦИОННЫЕ ТЕХНОЛОГИИ) вып. 9/2019(10)
is presented in the draft national standard “Research in the polar regions. Basic terms and definitions”. The techology is based on latent-semantic analysis. Keywords: distributive approach, thesaurus replenishment, latent-semantic analysis (LSA). Введение На сегодняшний день применение специализированных тезаурусов является распространенной практикой при работе коллективов и групп специалистов над решением определенного круга задач. Тезаурус позволяет «зафиксировать» единый набор используемых терминов, а также их взаимосвязи и смысловое значение для дальнейшего использования в различного рода коммуникациях, а также при решении широкого круга задач анализа и обработки естественно-языковых текстов. С этой точки зрения, целесообразно обеспечить его формирование и дальнейшее наполнение с наименьшими заратами труда и времени. При этом часто необходимо включать в тезаурус набор специализированных терминов, характерных для области его дальнейшего применения. В связи с этим актуальной видится задача автоматизации расширения некоторого исходного тезауруса на основе анализа набора специализированных текстов, потенциально содержащих новые понятия, относящиеся к рассматриваемой предметной области. В данной работе предлагается технология, позволяющая выявить возможных кандидатов для пополнения тезауруса, представленного в проекте национального стандарта «Исследования в полярных регионах. Основные термины и определения», на основе применения дистрибутивного подхода. 1. Обзор существующих подходов к анализу текстов Для решения задачи пополнения тематического тезауруса можно применять ряд подходов к анализу текстов: 1. Дистрибутивные подходы, учитывающие частоту встречаемости слов в едином контексте. Они основываются на дистрибутивной гипотезе, согласно которой лингвистические единицы, встречающиеся в схожих контекстах, имеют близкие значения. Результатом применения таких подходов является представление каждого слова в виде вектора в некотором пространстве. 2. Лингвистические подходы, предполагающие генерацию правил или лексико-синтаксических паттернов, на основе которых будут извлекаться знания из текста (лексико-синтаксические анализаторы). В данных подходах активно используются все уровни анализа естественного языка: морфология, синтаксис и семантика. 3. Краудсорсинг (crowdsourcing), предполагающий привлечение круга лиц со стороны для осуществления анализа текстового корпуса. В рамках данной работы применялся один из дистрибутивных подходов, поэтому остановимся на этой группе подходов более подробно. Данная группа подходов основывается на технологии, называемой word embeddings (вложения слова) [1]. Вложение слова - это действительное число, векторное представление слова. Как правило, слова со схожим значением будут иметь векторные представления, которые расположены близко друг к другу в пространстве вложения. 85
Made with FlippingBook
RkJQdWJsaXNoZXIy MTUzNzYz