Труды КНЦ вып.12 (ИНФОРМАЦИОННЫЕ ТЕХНОЛОГИИ вып. 5/2021(12))

• модель, обученная с уточнением понятий: точность = 0.056, полнота = 0.694; • модель, обученная с уточнением и аугментацией: точность = 0.055, полнота = 0.593. Эксперимент 2. Обнаружение «неизвестных» моделям понятий тестового набора, т.е. понятий, не присутствовавших в обучающем наборе: • модель, обученная без уточнения и аугментации: точность = 0.0, полнота = 0.01; • модель, обученная с уточнением понятий: точность = 0.455, полнота = 0.424; • модель, обученная с уточнением и аугментацией: точность = 0.435, полнота = 0.321. Отдельно также была произведена экспертная оценка корректности обнаруженных моделями понятий, которых не было в исходном списке (и, соответственно, в тестовом и обучающем наборах). Таким образом, оценивалась доля тех понятий, которые могут быть использованы для наполнения онтологии. Эксперимент 3. Обнаружение понятий, не представленных в исходном списке понятий: • модель, обученная без уточнения и аугментации: всего новых понятий - 39, доля корректных понятий - 0,6; • модель, обученная с уточнением понятий: всего новых понятий - 3566, доля корректных понятий - 0,82; • модель, обученная с уточнением и аугментацией: всего новых понятий - 3254, доля корректных понятий - 0,85. Наиболее показательными в отношении оценки эффективности использования полученных моделей для обучения онтологий является второй и третий эксперименты. В них оценивается способность моделей находить новые понятия на основе контекстов, в которых встречались понятия обучающего набора. Результаты экспериментов показали, что основной вклад в увеличение эффективности привносит процедура уточнения понятий. Вероятно, это вызвано тем, что понятия из исходного списка, представляющие в экспериментах понятия наполняемой онтологии, дополняются при уточнении связанными с ними токенами из предложений анализируемых текстов. Это приводит к тому, что данные токены рассматриваются моделью при обучении как части понятия, а не его контекста. Например, уточнение понятия «аэропорт» до «Международный аэропорт Шереметьево», позволяет модели рассматривать контекст «... является крупнейшим в России», который с большей вероятностью может ассоциироваться с другими понятиями, чем контекст «Международный ... Шереметьево является крупнейшим в России», полученный без уточнения понятия. Таким образом, уточнение понятий позволяет скорректировать их контекст употребления, что положительно сказывается на способности модели находить новые понятия. Применение аугментации также позволило немного повысить эффективность в отношении точности обнаружения новых понятий в третьем эксперименте. Однако этого удалось достичь после обучения модели на аугментированном наборе размером 2800 тысяч образцов. Такое обучение заняло в 5 раз больше времени, чем обучение на неаугментированном наборе. 30

RkJQdWJsaXNoZXIy MTUzNzYz