Труды КНЦ вып.12 (ИНФОРМАЦИОННЫЕ ТЕХНОЛОГИИ вып. 5/2021(12))

В работе [8] предложен теоретико-модельный подход к выделению понятий, в рамках которого каждое предложение подвергается разбору и интерпретируется как атомарная диаграмма целевой модели. Формирование сигнатуры модели (в том числе - констант) происходит по эвристическим правилам с учетом номинализации существительных. В рамках существующих подходов к определению семантических ролей осуществляется не только выделение лексических единиц, обозначающих понятия, но и идентификация с ними некоторых семантических или тематических ролей из заданного множества. Общий подход к решению этой задачи основан на контролируемом машинном обучении, а в качестве основы для обучающей выборки используются библиотеки размеченных текстов [9]. Наиболее известными проектами, предлагающими такие библиотеки, являются PropBank [10] и FrameNet [11]. В первом проекте семантическими ролями аннотируются отдельные слова, во втором - более сложные конструкции - семантические фреймы [12]. Как правило, в рассмотренных подходах в итоговую модель потенциально попадают все термины, упоминаемые в тексте, без учета их значимости в контексте рассматриваемой предметной области, что приводит к «замусориванию» целевой онтологической модели. Поэтому становится актуальным второй упомянутый выше вопрос. Ответ на него гораздо менее однозначен и зависит от используемого понимания значимости понятия. При этом, в практических целях необходимо не только достаточно точное понимание, но и подходящее для использования в автоматизированных вычислительных процедурах - операционное определение (operational definition) понятия «термин». Единого способа определения, судя по всему, не существует; так или иначе, идентификация значимости основывается на статистических свойствах слов-претендентов, способ расчета которых зависит от задачи [3]. Если важны репрезентативные свойства термина (насколько он значим для отражения темы документа), то расчет ведется без учета встречаемости во всей коллекции; если же важны дискриминативные свойства (насколько значим данный термин для выделения некоторой группы документов, например по некоторой одной предметной области, среди всей коллекции), то значимость термина определяется соотношением его статистических свойств внутри и за пределами группы (см., например, [13]). В данной работе критерием значимости понятия полагается активность его использования в описании прикладных задач, характерных для рассматриваемой предметной области. Например, можно предполагать, что в контексте рассмотрения арктических транспортно-логистических систем, понятие «ледовая обстановка» будет значимым, а понятие «литературная проза об Арктике» - нет. В то же время, «ледовая обстановка», значимая для арктической логистики - не значима в контексте рассмотрения экваториальных судоходных маршрутов. Одним из довольно простых и очевидных подходов к определению значимости понятия является использование статистических признаков, характеризующих частоту использования понятия в некотором наборе текстов [14]. Недостатком такого подхода является то, что точность (и корректность) оценки значимости зависит от объема анализируемого текста. Для получения хорошего результата необходимо располагать качественными (в смысле 12

RkJQdWJsaXNoZXIy MTUzNzYz