Труды КНЦ вып. 11 (ИНФОРМАЦИОННЫЕ ТЕХНОЛОГИИ) вып. 8/2020 (11)

для пополнения онтологии хозяйственной деятельности в Арктике [21]. Классы и экземпляры данной онтологии представляют различные виды промышленной, исследовательской деятельности в Арктике, а также объекты, связанные с ней. Для обучения модели с помощью разработанного краулера было собрано и проанализировано около 400 текстов арктической тематики, которые потенциально могли содержать понятия, представленные в онтологии в виде экземпляров. В результате был сформирован набор, содержащий около 360 000 примеров. Проверка качества обученной модели производилась на тестовом наборе аналогичной структуры. При его создании использовались тексты предметной области, не использовавшиеся для обучения модели. Их отбор и анализ выполнялись вручную. Таким образом, полученный тестовый набор представляет собой эталонный результат извлечения имеющихся и новых понятий онтологии. В ходе оценки качества модели выполнялось сравнение тестового набора и набора, полученного в результате применения языковой модели, и вычислялись оценки полноты и точности. Для сравнения оценивалась также и мультиязычная (multi-language) модель из библиотеки spaCy, ориентированная на извлечение имен людей, названий локаций и организаций из новостных текстов. Были получены следующие результаты: Эксперимент 1. Обнаружение моделями понятий тестового набора: - мультиязычная модель spaCy: точность = 0.13, полнота = 0.03; - обученная модель: точность = 0.95, полнота = 0.35. Эксперимент 2. Обнаружения моделями понятий тестового набора, не представленных в онтологии: - мультиязычная модель spaCy: точность = 0.013, полнота = 0.012; - обученная модель: точность = 0.25, полнота = 0.006. Результаты первого эксперимента говорят о наличии некоторого положительного эффекта обучения. Модель научилась распознавать в текстах некоторые контексты употребления понятий, характерных для предметной области. Однако этого недостаточно для обнаружения новых понятий, что показывают результаты второго эксперимента. Это также может быть вызвано тем, что исходная гипотеза о том, что имена экземпляров одного класса онтологии будут встречаться в одинаковых контекстах, подтверждается в большей степени для классов, потенциально имеющих большое разнообразие экземпляров в анализируемых текстах. Например, классы “Организация” или “Персона” потенциально могут иметь большое количество экземпляров в новостных текстах общей тематики. Таким образом, следует согласовывать специфичность классов пополняемой онтологии и анализируемых текстов. В контексте данного исследования это означает, что необходимо не только увеличить объем корпуса анализируемых текстов, но и обеспечить их более точный поиск и/или дополнительную фильтрацию по принадлежности к тематике пополняемой онтологии. С другой стороны, причиной малых результатов поиска новых понятий может быть небольшое количество экземпляров у классов, что также не позволяет модели сформировать достаточное разнообразие обобщенных контекстов для обнаружение новых понятий. Таким образом, исходя из полученных результатов в рамках дальнейшего исследования следует обеспечить увеличение объема обучающего набора и 43