Труды КНЦ вып.12 (ИНФОРМАЦИОННЫЕ ТЕХНОЛОГИИ вып. 5/2021(12))

соответствие метки ассоциированному с ней образцу (текстовому предложению), который подвергся изменению в результате аугментации. Так как в состав метки в данном случае входит извлекаемое понятие, представленное в виде своих границ (индексов первого и последнего токенов в предложении), то особую важность представляет правильное определение этих границ для правильного определения модифицируемой части предложения. Данная проблема напоминает проблему извлечения вложенных именованных сущностей (Nested Named Entity Recognition, Nested NER [3]), однако имеет некоторую специфику, обусловленную извлечением понятий для обучения онтологий. Таким образом, в данной работе предлагается после этапа генерации набора выполнять этап, на котором производится уточнение найденных понятий и последующее формирование дополнительных вариаций предложений, в которых они встречаются. 1. Обзор существующих подходов к аугментации данных Аугментация текстовых данных обучающих наборов заключается в изменении содержания их образцов (обычно текстов или предложений) так, чтобы не был утрачен их смысл. При этом присвоенные образцам метки, как правило, остаются без изменения. Среди общих видов техник аугментации можно выделить следующие: • замена слов в предложении [4]; • перестановка слов в предложении или предложений внутри текстов [5]; • «зашумление», то есть добавление незначительных ошибок в слова, предложения или тексты (изменение регистра, знаков препинания и т.п.); • генерация новых предложений или текстов на основе изменения структуры исходных [6]. Весьма распространенной практикой в последнее время стало использование предобученных на большем объеме текстов моделей с BERT (Bidirectional Encoder Representations from Transformers) [7] архитектурой. Ключевой особенностью данной архитектуры является возможность рассмотрения в процессе обучения отдельного слова в контексте окружающих его слов. Предобучение BERT-моделей на большом объеме текстов позволяет сформировать контекстуализированные векторные представления слов (contextualized word embeddings) для некоторого естественного языка, которые могут быть использованы в дальнейшем для решения различных NLP-задач, а также для выполнения аугментации. Так, в работе [8] предлагается алгоритм коррекции слов с ошибками, основанный на использовании маскированной языковой модели (masked language model) на основе BERT. В предложенном алгоритме данная модель используется для представления вариантов замены маскированных ошибочных слов. Аугментация в данном случае выполняется путем конкатенации исходного предложения и его варианта, содержащего маскирующие токены вместо слов с ошибками. По словам авторов, такая аугментация позволяет получать варианты для замены, состоящие из большего или меньшего числа токенов, чем заменяемое слово, а также «отвлечь» модель от ошибочного слова при генерации вариантов его замены. 24