Труды КНЦ вып.12 (ИНФОРМАЦИОННЫЕ ТЕХНОЛОГИИ вып. 5/2021(12))
затронуть. Поэтому особую актуальность приобретает правильность определения границ сущности в предложении, то есть определения упорядоченного множества составляющих ее токенов. Данное обстоятельство заставляет пересмотреть подход к выявлению понятий при формировании обучающего набора, предложенный в предыдущей работе [1]. Он предполагал поиск в текстах предложений, содержащих имена экземпляров классов уже существующих в исходной онтологии. Это позволяло свести задачу ее наполнения к задаче извлечения именованных сущностей (NER). Однако анализ полученных таким образом размеченных наборов предложений выявил некоторые особенности, которые необходимо учитывать в контексте извлечения именно онтологических концептов. Например, при поиске предложений в корпусе новостных текстов, включающих экземпляр класса «Country» с именем «Russia», помимо предложений, содержащих соответствующий токен, как название страны, были найдены также предложения, включающие комбинации этого токена с другими: «government of Russia», «president of Russia», «company in Russia». Данные комбинации токенов могут быть проинтерпретированы и как классы онтологии («government», «president»), и как экземпляры классов («government of Russia», «president of Russia»). При этом они могут неявно определять некоторое отношение (например, company «is- located-in» Russia) к исходному классу «Country» и/или его экземпляру «Russia», которое также можно добавить в онтологию. Таким образом, идентификация онтологической сущности в предложениях при формировании обучающего набора, в отличие от просто именованных сущностей в задаче NER, имеет смысл осуществлять с учетом некоторого онтологического контекста, описывающего роль исходной сущности в онтологии. Учет онтологического контекста при формировании обучающего набора, а также возможность его включения в состав меток размеченных предложений, предполагается рассмотреть подробнее в продолжении исследования. В рамках же данной работы для корректной аугментации необходимым является уточнение границ сущностей в предложениях, найденных в текстах предметной области на первом этапе. Для этого был введен дополнительный шаг, предполагающий определение положения исходной сущности в дереве зависимостей (dependency tree) предложения и включения в ее состав токенов, непосредственно связанных с ней синтаксическими отношениями. Например, предложение «Международный аэропорт Шереметьево является крупнейшим в России.» имеет следующее синтаксическое дерево, как показано на рис. 1. является-VERB крупнейшим-ADD аэропорт-NOUN России-PROPN .-PUNCT Международный- a d : Шереметьево- в-ADP PROPN Рис. 1. Схема дерева зависимостей предложения 27
Made with FlippingBook
RkJQdWJsaXNoZXIy MTUzNzYz