Труды КНЦ вып.9 (ИНФОРМАЦИОННЫЕ ТЕХНОЛОГИИ) вып. 9/2019(10)

уникальные слова и биграммы - 67 683. Для данного текстового корпуса предварительно был сформирован экспертный набор, представляющий эталонный результат. Он включает в себя некоторый термин из предмтеной обсласти и слова, связанные с ним с точки зрения эксперта (2): {термин: [связанные лексемы и биграммы]} . (2) Следуя описанным выше этапам решения задачи, аналогичный по структуре набор терминов был сформирован с помощью JICA для сетевого корпуса текстов, и затем было оценено сходство этих двух наборов в виде полноты и точности, которые составили 0,29 и 0,015 соответственно. Низкие значения данных показателей прежде всего связаны с малым размером текстового корпуса, поскольку для более точных результатов требуется около 3-5 млн словоупотреблений. Но тем не менее, ненулевая полнота предполагает некоторую вероятность нахождения каких-то новых терминов в целевом корпусе текстов. Поэтому далее латентно-семантический анализ применялся уже к корпусу текстов арктической тематики. Также придерживаясь описанных ранее этапов применения JICA, первоначально осуществлялось формирование арктического текстового корпуса, который на текущий момент состоит из 109 документов (фрагментов научных статей), в которых найдено 232 261 токен и 95 760 униграмм и биграмм. Биграммы, учитывая упомянутые ранее особенности тезауруса, извлекались следующим образом. Первым делом языковая модель spaCy была обучена на корпусе синтаксических деревьев русского языка [8], так как в основном spaCy применяется только для английского языка. Затем биграммы извлекались по правилам, которые требуют наличие между словами биграммы определенного вида отношений - amod (adjectival modifier) и nmod (nominal modifier). Иначе говоря, это виды именных словосочетаний, где главным словом является имя существительное (например, существительное и прилагательное, существительное и существительное). Применив поэтапно латентно-семантический анализ на арктическом текстовом корпусе, было выявлено большое количество общеупотребительной лексики, что подтверждает низкую точность данного метода. Но несмотря на это, удалось выявить новые термины, которые могут быть рассмотрены в качестве кандидатов для пополнения текущего тезауруса. Ниже представлены некоторые из обнаруженных понятий, связанные с понятиями тезуаруса (выделены курсивом): • Айсберг : галоклин (слой воды); • Антарктида : КМАГЭ (экспедиция), гравиметрический (весовой анализ); • Арктический туризм : Грумант (поселок), свердруп (единица измерения), Шхера (архипелаг); • Ледник : Маркхема (шельфовый ледник), Элсмир (остров), Эйлс (ледяной массив); • Полярный регион : алеут (коренное население), накипной (лишайник), кайра (морская птица), Банкс (остров). 89

RkJQdWJsaXNoZXIy MTUzNzYz