Труды КНЦ вып. 11 (ИНФОРМАЦИОННЫЕ ТЕХНОЛОГИИ) вып. 8/2020 (11)

3. Анализ согласованности полученной множественной разметки с получением в результате генеративной модели, позволяющей оценивать вероятность присвоения правильной метки маркировочной функцией. 4. Формирование вероятностного обучающего набора данных. 5. Обучение дискриминативной модели на полученной обучающей выборке. Данная процедура реализуется программным инструментом Snorkel, разработанным в рамках соответствующего проекта исследователями из Стэнфордского университета [5]. В целом подход обладает существенными достоинствами: • Возможность простой инкапсуляции в результирующую модель знаний нескольких экспертов. • Программирование МФ значительно более простая процедура, нежели ручное маркирование. • Использование МФ позволяет эффективно обеспечивать разметку в условиях больших объемов данных (когда ручная маркировка - медленная и дорогая процедура). • В рамках подхода обеспечивается автоматическая (неявная) оценка качества той или иной маркировочной функции (в случае ручной маркировки, качество работы эксперта сложно оценить). • Подход характеризуется гибкостью по отношению к исходным данным (изменение данных не влечет за собой дополнительной ручной работы, связанной с разметкой новых учебных наборов - достаточно обработать новые данные с помощью имеющихся маркировочных функций). • С помощью МФ могут быть закодированы произвольные сигналы: эвристики, зашумленные обучающие выборки и др. • Будучи фрагментами программного кода, маркировочные функции обладают соответствующими достоинствами - модульностью, возможностью повторного использования и др. Таким образом, слабо-контролируемое обучение (СКО) является весьма перспективным подходом для решения ключевых проблем построения МПИС, связанных с гетерогенностью и изменчивостью структуры и внешней среды существования системы. В широком смысле, модели машинного обучения (ML- модели), в частности - искусственные нейронные сети, могут рассматриваться как способ реализации любых функциональных компонентов системы, при условии наличия достаточного объема данных для их обучения. Важным преимуществом СКО перед другими методами машинного обучения в этом контексте является возможность неявного моделирования предметной области через задание (повторно используемых) маркировочных функций, определяющих значимые для решения той или иной задачи характеристики предметной области. В то же время, формирование множества маркировочных функций, являющихся фрагментами программного кода и назначающими метки исходным данным, является ключевой проблемой в рамках данного подхода, поскольку, с одной стороны, данный процесс довольно трудоемкий (с учетом необходимости формирования множественной исходной разметки больших объемов данных) и, в 173