Труды КНЦ вып.12 (ИНФОРМАЦИОННЫЕ ТЕХНОЛОГИИ вып. 5/2021(12))

слишком большого числа токенов. По этой причине на 4-ом шаге при генерации комбинаций используются параметры, определяющих одновременное максимально количество заменяемых и удаляемых токенов в комбинации. Им были присвоены значения 4 и 2 соответственно. Наряду с этим, во избежание частых ошибок согласования предлагаемого моделью токена и его окружения (например, несогласование по роду, числу или падежу), не рассматривались комбинации, в которых маскируемые токены располагались друг за другом. Указанные параметры позволяют варьировать грамматическую и смысловую правильность формируемых предложений и объем получаемого в результате аргументированного набора. Чем больше комбинаций будет рассматриваться, тем больше вариантов будет сгенерировано для каждого исходного предложения. Однако при этом возрастает вероятность наличия в них грамматических и смысловых ошибок. После завершения представленной процедуры аугментации сформированный набор может быть использован для обучения языковой модели. 3. Оценка эффективности предложенной процедуры аугментации Для оценки эффекта предлагаемых процедур уточнения понятий и аугментации был проведен эксперимент, в рамках которого были обучены и оценены три модели. Первая модель была получена без применения предложенных процедур аугментации и уточнения понятий, вторая - с применением уточнения понятий, третья - с применением уточнения понятий и аугментации. Для формирования начального обучающего набора использовался корпус новостных русскоязычных текстов интернет-издания Lenta.ru [20], который содержит около 800 тысяч новостных текстов различной тематики (политика, экономика, спорт и т.д.). В качестве набора понятий онтологии был вручную сформирован исходный список понятий, характерный для новостных текстов (например, «компания», «полиция», «акция» и др.). В результате анализа текстового корпуса с применением исходного списка понятий был сформирован обучающий набор, включающий около 550 тысяч размеченных образцов - предложений с метками «понятие и ее категория». На данном наборе была обучена первая модель. Далее к сформированному обучающему набору были применены предложенные процедуры уточнения и аугментации. В результате были получены еще два набора: набор с уточненными понятиями и аугментированный набор с уточненными понятиями. Размер последнего вырос с 550 тысяч до 2800 тысяч образцов. После этого на данных наборах было обучено еще две модели. Проверка их качества выполнялась на тестовом наборе. Его формирование осуществлялось аналогично формированию обучающего, но при этом использовалась другая часть текстов новостного корпуса. Объем тестового набора составил 300 тысяч образцов. Оценка качества производилась в рамках следующих экспериментов: Эксперимент 1. Обнаружение «известных» моделям понятий тестового набора, т.е. тех понятий, которые присутствовали в обучающем наборе: • модель, обученная без уточнения и аугментации: точность = 0.002, полнота = 0.024; 29

RkJQdWJsaXNoZXIy MTUzNzYz