Труды КНЦ вып.9 (ИНФОРМАЦИОННЫЕ ТЕХНОЛОГИИ) вып. 9/2019(10)
сингулярным числам), которое позволяет разложить исходную матрицу на три составляющие, линейная комбинация которых является достаточно точным приближением к исходной матрице: A = U - S - V t , (1) где U и Ѵ 1 — ортогональные матрицы, S — диагональная матрица. Используя полученное разложение (1), можно выявить основные зависимости между термами и документами, латентно присутствующие в исходной матрице. Особенность такого разложения состоит в том, что если в матрице S оставить только к наибольших сингулярных значений, то линейная комбинация получившихся матриц будет наилучшим приближением исходной матрицы А к матрице А ранга к. В рамках данной работы применение JICA состояло из следующих этапов: 1) формирование текстового корпуса документами определенной тематики; 2) извлечение из текстового корпуса отдельных слов и коллокаций (биграмм); 3) препроцессинг отдельных слов и коллокаций - исключение стоп-слов и небуквенных символов, нормализация; 4) вычисление TF-IDF для каждой униграммы и биграммы; 5) формирование исходной матрицы термы-на-документы и ее SVD- разложение; 6) получение векторов слов тезауруса и слов текстового корпуса; 7) вычисление расстояний между этими векторами; 8) выявление наиболее близких слов текстового корпуса к терминам тезауруса. В контексте применения латентно-семантического анализа к текущей задаче поплнения тезауруса арктической деятельности возникли две проблемы. Первая проблема состоит в том, что исходная тематическая выборка текстов может не содержать термины, которые есть в тезаурусе. Следовательно, это приводит к невозможности нахождения в текстовом корпусе каких-либо слов, близких к таким терминам тезауруса. По этой причине дополнительно был сформировали набор так называемых связывающих текстов, которые потенциально связаны с выбранной тематикой и при этом содержат термины тезауруса. Идея в том, чтобы связать термин тезауруса как-нибудь с текстовым набором через другие слова. Вторая проблема заключается в том, что большая часть терминов тезауруса представлена словосочетаниями (биграммами), поэтому из текста необходимо извлекать подобные структуры. Для ее решения была использована python-библиотека spaCy [7], позволяющая анализировать синтаксические деревья предложений исходных текстов и, в зависимости от отношения между токенами, выявлять необходимые конструкции. 3. Применение технологии на примере пополнения тезауруса арктической деятельности Изначально латентно-семантический анализ был опробован на тестовом корпусе текстов (фрагментов учебных пособий) по сетевым технологиям. Он состоит из 104 документов, в которых выявлено: общее число токенов — 238 401,
Made with FlippingBook
RkJQdWJsaXNoZXIy MTUzNzYz