XVI международная научная конференция студентов и аспирантов «Проблемы арктического региона», Мурманск, 16 мая 2017 года : труды конференции / [ред.: Черняков С. М., Шаповалова Ю. А.]. - Мурманск : Полиграфист, 2017.

ПРИМЕНЕНИЕ МЕТОДОВ КЛАССИФИКАЦИИ ТЕКСТОВЫХ ДАННЫХ В СООТВЕТСТВИИ С ЗАДАННОЙ ТЕМАТИКОЙ ПРИ КОНТЕКСТНОЙ ОБРАБОТКЕ ОБЩЕНАУЧНОЙ ИНФОРМАЦИИ В. Т. Мусидзе, И.М. Лазарева Мурманский арктический государственный университет, г. Мурманск, Россия lasareva. irina(a> ,mshu.edu.ru Аннотация. В статье предлагается решение задачи классификации небольших по объему текстовых данных, представляющих описание научных исследований отдельных авторов или название их научных публикаций. В качестве признака классификации используется заданная научная тематика. Определяются способы предобработки указанной текстовой информации. Строится математическая модель на основе использования семантической близостислов, вычисляемой с помощью модели word2vec.Описывается программная реализация методов текстового анализа. Ключевые слова: интеллектуальный анализ текста, методы классификации, модель word2vec. Автоматизация процесса решения задач с помощью интеллектуального анализа данных часто позволяет решить сразу несколько проблем: разгрузить людей от выполнения рутинных задач, увеличить скорость выполнения таких задач, уменьшить вероятность возникновения ошибок. Классификация текстовых данных как раз является такой задачей. В основе любого сколь угодно крупного, даже международного научного сотрудничества, всегда лежит контакт между людьми. В научной сфере очень важными являются контакты между людьми, ведущими свою научно-исследовательскую деятельность в смежных областях. Таким образом, возможность быстрого поиска и объединения таких людей в группы для облегчения установления и поддерживания их контакта является безусловно актуальной. С прикладной точки зрения была поставлена задача распределения авторов публикаций по группам, определяемым заданной тематикой, на основе списка их научных работ. Автоматизация подобной задачи, то есть задачи классификации очень коротких текстовых данных, фактически предложений, по классам, представленным такими же предложениями, может быть применена в очень широком спектре областей, например, в распределении докладов по секциям в конференциях, или в выделении людей по их научным работам в группы в рамках грантов и т.п. Проведенное исследование показало, что проблема автоматизированного выделения людей в группы, объединенные по области и направлению их научной деятельности, ориентируясь, например, на их научные публикации, на сегодняшний день не является решённой обособленно. Аналогичные решения присутствуют в качестве модулей в некоторых базах научных работ, однако их использование ограничено этими базами. Методы решения поставленной задачи лежат в области интеллектуального анашза текста или Text Mining. Text Mining - это процесс извлечения полезной и ранее неизвестной информации из заданного объёма текстовых данных [Барсегян и др., 2003]. Суть интеллектуального анализа данных заключается в извлечении информации из текста, который для этого изначально не подготовлен. В зависимости от задачи, может выделяться разное количество этапов Text Mining, в данной задаче было использовано три этапа. Первый этап - это предобработка текста, то есть его подготовка для последующего автоматизированного анализа. Вторым этапом является непосредственно компьютерный анализ предобработанных текстовых данных, т.е. поиск\извлечение необходимой информации методами Text Mining. Проблемы Арктического региона 7 8