Труды КНЦ вып.12 (ИНФОРМАЦИОННЫЕ ТЕХНОЛОГИИ вып. 5/2021(12))

Процесс обнаружения сущностей прекращается, если текущий плоский слой NER не выявляет никаких сущностей. В работе [14] предлагается операция регрессии для обнаружения вложенных именованных сущностей в предложении. Для ее выполнения предложение сначала преобразуется с помощью глубокой нейросети в рекуррентные карты признаков (recurrent feature maps), т.е. в абстрактные представления, фиксирующие семантические зависимости между словами. Каждая карта признаков определяет возможные границы сущности. Далее из этих карт признаков генерируются рамки (bounding boxes), которые представляют собой абстрактные представления именованных сущностей. Каждая рамка включает информацию о положении сущности (начальная позиция и длина) и категории класса. В процессе обучения операция регрессии предсказывает значение смещения начальной позиции и значение смещения текущей рамки относительно истинной рамки, соответствующей истинной именованной сущности. Предсказанные смещения позволяют корректно «сдвинуть» рамку, тем самым точно идентифицируя сущность. В работе [15] предлагается итеративный алгоритм двунаправленного распознавания вложенных именованных сущностей. Он предполагает обучение двух нейросетевых моделей на одном наборе данных для идентификации именованных сущностей в двух направлениях: от общего к конкретному (снаружи внутрь) и от конкретного к общему (изнутри наружу). Каждое слово входной последовательности представляется в виде конкатенации трех векторов: контекстное представление символьной языковой модели, статическое векторное представление (word embedding) и multi-hot вектор закодированных предсказаний для данного слова из предыдущих итераций. На каждой итерации модель генерирует новые прогнозы на основе исходной последовательности слов и ранее сделанных прогнозов. Данный процесс завершается, когда новые сущности больше не выявляются. На выходе прогнозы обеих моделей фильтруются посредством выбранного критерия отбора (например, объединение результатов, пересечение результатов и др.) с последующим формированием окончательного набора обнаруженных сущностей. В работе [16] предлагается метод декодирования, который итеративно распознает сущности по принципу от самых внешних к внутренним («outside-to- inside» способ). Он позволяет выявить в диапазоне каждой обнаруженной сущности внутренние вложенные сущности, используя алгоритм Витерби [17]. Предлагаемая в данной работе процедура аугментации также предполагает применение предобученной BERT-модели, ориентированной на решение задачи маскированного языкового моделирования (masked language modeling, MLM) [7]. Основное отличие состоит в подготовке маскированного предложения с учетом вероятного переопределения границ сущности, производимого в рамках ее уточнения. 2. Предлагаемая процедура уточнения понятий и аугментации размеченных предложений Аугментация предполагает некоторое изменение исходного предложения. Однако в данном случае предполагается последующее извлечение сущности для ее добавления в онтологию, поэтому модификация предложения не должна ее 26