Труды КНЦ вып.12 (ИНФОРМАЦИОННЫЕ ТЕХНОЛОГИИ вып. 5/2021(12))

В работе [9] предлагается метод контекстной аугментации размеченных предложений с помощью условной BERT-модели. Данная модель является результатом настройки исходной BERT-модели с помощью набора данных, дополнительно включающего метки (позитивная/негативная). Это позволяет модели при аугментации предлагать замены маскированным токенам с учетом метки и тем самым обеспечивать правильность получаемых образцов. В работе [10] предлагается метод аугментации с применением так называемой filtered-BERT модели для решения задачи деидентификации защищенной информации о здоровье (protected health information, PHI) в документах для вторичного использования. Filtered-BERT предсказывает маскированное слово, предоставляя несколько вариантов, и далее производит их фильтрацию путем сравнения косинусного расстояния между fastText-векторами слов-вариантов и заменяемого слова. В итоге аугментированные предложения формируются со словами, прошедшими через данный фильтр. Упомянутая проблема уточнения границ сущности в предложении похожа на проблему извлечения вложенных сущностей (nested NER). В ранних работах, посвященных ее решению, используются подходы, основанные на правилах. Так, в работе [11], посвященной распознаванию биомедицинских сущностей предлагаются два таких подхода: подход на основе правил постобработки (post processing) и подход на основе скрытой марковской модели (Hidden Markov Model, HMM). Подход на основе правил постобработки предполагает использование специально разработанных на основе корпуса GENIA паттернов, которые позволяют распознать наиболее длинные имена сущностей на основе более простых (вложенных). Подход на основе HMM, в свою очередь, предполагает использование двух предварительно обученных моделей: первая модель распознает короткие сущности, а вторая - используется для последующего расширения этих распознанных коротких сущностей в длинные. В работе [3] представлен специализированный парсер для распознавания вложенных именованных сущностей. Данный парсер обучается на предложениях, представленных в виде синтаксических деревьев (parse tree), которые содержат информацию о составляющих (токенах) каждой именованной сущности - «родителя» и «прародителя», а также их части речи. В недавних работах чаще всего используются подходы с применением нейросетевых моделей для распознавания вложенных сущностей. Например, в работе [12] для решения данной задачи предлагается простая нейросетевая модель. Она позволяет выделить и классифицировать все возможные фрагменты входной последовательности, в которых упоминается потенциальная вложенная сущность. Затем в этих выделенных областях с помощью слоя LSTM обнаруживаются сами сущности. В следующей работе [13] предлагается нейронная модель для идентификации вложенных сущностей путем наложения друг на друга так называемых «плоских» слоев NER. «Плоский» слой используется для распознавания «плоских» сущностей - противоположность вложенных сущностей. Данный слой, в свою очередь, состоит из слоя LSTM, который захватывает двунаправленное контекстное представление последовательности, и слоя CRF, предсказывающего последовательность меток - теги BIO для этого представления. Количество плоских слоев зависит от уровня вложенности сущности (например, New York - 1 уровень, New York University - 2 уровень). 25