Труды КНЦ (Технические науки вып. 7/2023(14))

требуют больших трудозатрат на создание и поддержание актуальности набора правил и словарей. Среди инструментов, использующих данных подход к анализу грамматики русского языка — Яндекс Томита (tomita-parser) [6] и Yargy-parser (часть проекта Natasha) [7]. Модели нейронной сети с глубоким обучением, способны самостоятельно обнаруживать признаки, идентифицирующие именованную сущность в тексте, и выявлять закономерности для классификации найденных сущностей в заданные классы. Для решения задач обработки естественного языка с применением глубокого обучения была разработана модель BERT со встроенным энкодером и декодером. Эта модель основана на технологии преобразователей (трансформеров), которая в процессе обучения составляет модель зависимости между токенами в предложении. Это помогает снизить влияние контекста обучающей выборки на результат формирования модели. Преимуществами в данном случае являются высокая точность идентификации и классификации именованных сущностей и низкое влияние контекста обучающей выборки на формирование модели. Недостатками являются ее высокая вычислительная сложность, требующая использования соответствующего оборудования, а также сложность отношений, на которых работает модель. Эти связи не могут быть идентифицированы человеком, что усложняет процесс отладки при возникновении ложных срабатываний. Основными программными библиотеками, предоставляющими функции для решения задачи NER, являются Slovnet [8], DeepPavlov [9] и SpaCy [10]. Все упомянутые библиотеки используют предварительно обученные языковые модели для русского языка на основе BERT, что делает их универсальными. Точность работы с текстом напрямую зависит от используемой модели. Связывание именованных сущностей (NEL). Для решения задачи NEL также существует несколько подходов [11-13]. В частности, программные библиотеки SpaCy и DeepPavlov, помимо возможности поиска именованных сущностей, предоставляют инструменты для решения задачи NEL. В библиотеку SpaCy для этого включены два компонента: • EntityLinker обеспечивает поиск именованных сущностей из исходного текста. Для этого требуется использование языковых моделей и моделей поиска именованных сущностей, предоставляемых только библиотекой SpaCy. В качестве базы знаний используется Wikidata. Стоит отметить, что данные из базы знаний получаются не в режиме реального времени, а из снимка данных Wikidata, при этом данные по каждой сущности хранятся только на английском языке. В связи с этим для решения задачи NEL для русского языка потребуется предварительный перевод сущности на английский язык, что может снизить точность полученного результата; • компонент KnowledgeBase можно использовать для создания собственной базы знаний на основе компонентов Wikidata и использования обучения с учителем для создания классификатора. Однако для этого требуется создание довольно большого набора данных. Оба компонента в SpaCy требуют предварительно обученной модели для NEL. Модель может быть предварительно обучена пользователем. На момент исследования в репозитарии проекта отсутствовала обученная модель для задачи NEL в русском языке. В библиотеке DeepPavlov задача NEL является частью программного модуля ответов на вопросы по базе знаний (KBQA) [14], с помощью которого части текста могут быть связаны с понятиями из Wikidata, а также могут формироваться семантические запросы на естественном языке (в том числе и на русском) к базе знаний. Чтобы эффективно связать именованную сущность с концепцией базы знаний, необходимо решить следующие задачи: • обеспечить выбор из нескольких вариантов названия или имени именованного объекта. Например, для сущности «А. С. Пушкин» в тексте возможны несколько вариантов представления: Александр Пушкин, Пушкин, Александр Сергеевич Пушкин, А. Пушкин и т. д.; • решить неоднозначность в определении понятия базы знаний, к которому принадлежит названная сущность. Например, сущность «Пушкин» может относиться к понятиям: «город»», «поэт», «астероид»; • определить действия в случае отсутствия понятия именованной сущности в базе знаний. Труды Кольского научного центра РАН. Серия: Технические науки. 2023. Т. 14, № 7. С. 5-15. Transactions of the Kola Science Centre of RAS. Series: Engineering Sciences. 2023. Vol. 14, No. 7. P. 5-15. © Тесля Н. Н., Шутюк В. Д., Жарков В. М., Витязев А. П., Сиповский Г. В., 2023 7

RkJQdWJsaXNoZXIy MTUzNzYz