Труды КНЦ вып.12 (ИНФОРМАЦИОННЫЕ ТЕХНОЛОГИИ вып. 5/2021(12))

Согласно данному дереву, сущность онтологии «аэропорт» связана с токенами «Международный» и «Шереметьево». Следовательно, уточненная сущность будет «Международный Аэропорт Шереметьево». После уточнения сущностей производится аугментация исходного предложения следующим образом: 1. На основе анализа дерева синтаксических зависимостей предложения среди токенов сущности определяется главный токен сущности (он расположен на более высоком уровне дерева, чем дочерние токены). 2. Выявляем ближайшие токены, расположенные слева и справа от токенов сущности и не являющиеся прилагательными, стоп-словами или предлогами. По дереву зависимостей определяем зависимые от них токены. Таким образом, получаем группы ближайших левых и правых токенов. 3. В полученных на 2-ом шаге группах отмечаем главные и дочерние токены как кандидаты на замену. 4. Формируем все комбинации индексов токенов, отмеченных на замену. 5. С использованием сформированных на предыдущем шаге комбинаций индексов создаем модификации исходного предложения, в которых разные комбинации токенов заменены токеном-маской. 6. С помощью предобученной BERT-модели получаем варианты токенов для замены и подставляем их вместо токенов-масок в модификации исходного предложения. 7. Для полученных аугментированных предложений производим переопределение границ онтологической сущности, поскольку замена токенов приводит к их изменению. Например, рис. 1 показывает, что главный токен понятия «Международный аэропорт Шереметьево» - это «аэропорт». На следующем шаге мы получаем только группу ближайших правых токенов [«является», «крупнейшим»], а группа ближайших левых токенов является пустой, поскольку группа токенов сущности расположена в начале предложения. Эти два токена из группы ближайших правых токенов являются кандидатами на замену. Далее, имея сформированных комбинации индексов этих токенов, мы создаем модификации исходного предложения, где токены «является» и «крупнейшим» заменены токеном-маской: Международный аэропорт Шереметьево {mask} крупнейшим в России. Международный аэропорт Шереметьево является {mask} в России. Используя BERT-модель, мы получили 16 возможных токенов для замены токенов-масок. В итоге, применив некоторые из предложенных токенов, получаем следующие модифицированные предложения: Международный аэропорт Шереметьево был крупнейшим в России. Международный аэропорт Шереметьево является крупнейшим в России. Международный аэропорт Шереметьево является единственным в России. Международный аэропорт Шереметьево является старейшим в России. Для получения дерева синтаксических зависимостей была использована русскоязычная модель из фреймворка spaCy [18]. В качестве языковой модели для решения задачи MLM и предложения токенов для подстановки использовалась русскоязычная модель RuBERT из проекта deeppavlov [19]. Для того, чтобы BERT-модель предлагала на замену токены, релевантные предметной области предложения, необходимо избегать замены в предложении 28

RkJQdWJsaXNoZXIy MTUzNzYz