Труды КНЦ (Технические науки) 2/2022(13).
Второй признак классификации по характеру рассматриваемого языка ссылается на наличие у языка (или языков) определенных языковых ресурсов, в зависимости от объемов которых возможна классификация систем на работающие с малоресурсными языками (low-resource languages) и работающие с высокоресурсными языками (high-resource language). Для малоресурсных языков, в отличие от высокоресурсных, как правило, мало или вообще нет наборов для МО, нет достаточного количества носителей этого языка или экспертов [6]. Объемы доступных ресурсов также играют важную роль в рамках рассматриваемой задачи, так как их наличие может являться необходимым для реализации того или иного метода извлечения знаний. Поскольку используемые методы и признаки (лингвистические, статистические), по которым идентифицируются концепты и отношения, могут различаться в зависимости от решаемой практической задачи, могут различаться и требования к реализуемой системе извлечения знаний в отношении различных языковых ресурсов. Например, для реализации любых методов, использующих различные морфологические, синтаксические или семантические признаки, как правило, необходимы инструменты разметки текста этими признаками, а для реализации методов на основе правил обычно необходимо привлечение языковых экспертов для составления набора правил. Извлечение концептов Под задачей извлечения концептов понимается поиск в неструктурированном тексте и последующая интерпретация лексических обозначений некоторых ментальных конструктов, используемых в целевой модели знаний [7]. В рамках извлечения концептов также могут использоваться инструменты извлечения терминологии (terminology extraction) и инструменты извлечения именованных сущностей (named entity recognition). Задача извлечения терминологии заключается в извлечении релевантных терминов из заданного корпуса. При этом под термином обычно подразумевают некоторое текстовое представление концепта. В зависимости от постановки задачи требования к системам извлечения терминов могут меняться. Например, авторами [8] предлагается следующая классификация систем извлечения терминов. По частоте появления термина авторы разделяют системы на рассматривающие каждое отдельное появление термина или не делающие различия между появлениями одно и того же термина в разных контекстах. По количеству распознаваемых терминов разделяют на системы, распознающие определенное заранее заданное количество терминов, и системы, в которых алгоритм сам определяет количество распознаваемых терминов для каждой входной коллекции. По длине терминов-кандидатов выделяют системы, работающие с терминами длинной в одно слово, два, множество или любой длины. Задача распознавания именованных сущностей может рассматриваться как задача распознавания и классификации имен собственных из корпуса. Под именованными сущностями, как правило, понимают имена собственные, выделяющие именуемый объект из ряда подобных. В зависимости от поставленной практической задачи различаются как классы распознаваемых имен собственных (например, в классической постановке задачи это могут быть имена людей и/или телефонные номера, а в контексте биомедицины — наименования белков), так и применяемые методы [9]. Концепты в рамках рассматриваемых задач можно разделить на два класса: общие, не относящиеся к какой-то конкретной предметной области, используемые повсеместно, и предметно-ориентированные, используемые в рамках определенных предметных областей. Применяемые для решения задач извлечения концептов методы могут быть разделены на методы на основе: правил, статистики, внешних источников, МО, а также гибридные методы (рис. 3). Приведенный порядок не случаен и соответствует хронологии развития соответствующих технологий. С развитием технологий обработки естественного языка и наращиванием объемов языковых ресурсов заметен постепенный переход от методов на основе правил, составляемых языковыми экспертами, к методам на основе МО, которые используют большие объемы данных для обучения моделей [9, 10]. Труды Кольского научного центра РАН. Серия: Технические науки. 2022. Т. 13, № 2. С. 31-45. Transactions of the Kola Science Centre of RAS. Series: Engineering Sciences. 2022. Vol. 13, No. 2. P. 31-45. © Пимешков В. К., Шишаев М. Г., 2022 34
Made with FlippingBook
RkJQdWJsaXNoZXIy MTUzNzYz