Север и рынок. 2023, № 3.
СЕВЕР И РЫНОК: формирование экономического порядка. 2023. № 3. С. 61-77. Sever i rynok: formirovanie ekonomicheskogo poryadka [The North and the Market: Forming the Economic Order], 2023, no. 3, pp. 61-77. СТРАТЕГИЧЕСКОЕ УПРАВЛЕНИЕ РЕГИОНАМИ И ОТРАСЛЯМИ СЕВЕРА И АРКТИКИ в установленные сроки запланированных показателей социально-экономического развития Республики Крым12. Отметим, что на данном фрагменте пермутационного словаря наличествуют два значения термина ДОСТИЖЕНИЕ: достижение как положительный результат работы, деятельности (у нас две строки — достижения медицины, достижения науки) и достижение чего-либо своими усилиями, приобретение, получение желаемого (у нас — все остальное). Следует отметить также, что многие другие термины, входящие в приведенные выше понятия, имеют несколько различных значений, что легко проверить с помощью толкового словаря [28]. Так, в частности, в исследуемом нами тексте часто встречается слово ОБРАЗОВАНИЕ. Совершенно очевидно, что оно имеет не одно значение: одном случае слово употребляется в смысле «процесс усвоения званий; обучение, просвещение», в другом — «организации, учреждения, основания, появление чего-либо», а в сочетании с прилагательным «муниципальный» приобретает значение «территория местного самоуправления различных стран». Проверка слов на многозначность с помощью толкового словаря13 показывает, что, по крайней мере, 12 из используемых нами терминов имеют более чем одно значение, то есть обладают семантической неоднозначностью. Методика: семантико-синтаксический анализатор SemSin Из вышесказанного очевидно, что для решения всех этих проблем необходимо привлечения методов синтаксического и семантического анализа. Воспользуемся семантико-синтаксическим анализатором SemSin, сочетающим в себе функции лемматизатора, синтаксического и семантического анализаторов [29]. Парсер состоит из словаря с классификатором, а также блока морфологического анализа, организованного на языке C++, лексического анализатора на Visual Basic 6.0 и 732 продукционных правил, использующих собственную систему команд. Морфолого-синтаксическая база включает в себя основной словарь, словарь фразем и словарь предлогов. База построена на основе модифицированного словаря Тузова [30], содержащего более 196 тыс. лексем (более 170 тыс. слов). Для каждой лексемы указаны морфологические характеристики, номер (или номера) семантического класса, а также актанты (или валентности), которые обеспечивают автоматическое 12 См.: Закон Республики Крым от 09.01.2017 № 352- ЗРК/2017 «О стратегии социально-экономического развития Республики Крым до 2030 года» [по состоянию на 26.12.2022]. 13URL: https://rustxt.ru/dict (дата обращения: 05.06.2023). распознавание зависимых слов. Для слова может иметься несколько лексем, которые относятся к разным классам (например, коса как волосы, коса как побережье и коса как утварь). Классификатор содержит 1700 классов, образующих дерево, построенное по семантическому принципу. Объем словаря обеспечивает распознавание около 96 % слов современных новостных текстов. Примерно в половине случаев отсутствующие в словаре слова являются именами собственными, многие из которых система способна распознать автоматически. Данный парсер анализирует текст по абзацам. Прежде всего, текст разбивается на токены и каждое слово обрабатывается морфологическим анализатором. Результат разбора выдается в виде одной или нескольких лемм с морфологическими характеристиками и классами (или набором классов) с указанием соответствующих актантов. После этого запускается предсинтаксический модуль14, который делит абзац на предложения, уточняет написание и морфологические характеристики некоторых конструкций (слов с дефисами, составных и алфавитно-цифровых числительных), пытается решить проблему с неизвестными словами и осуществляет разбор фразем [31]. Затем подключается синтаксический модуль, использующий более 700 правил. В результате реализации данного этапа для предложений решается вопрос о грамматической и частеречной омонимии, происходит автоматический разбор предложения и формируется дерево синтаксических зависимостей. Во многих случаях разрешается и семантическая омонимия. В результате синтаксического анализа для каждого слова определяются его лемма, часть речи, грамматические признаки (одушевленность, род, число, падеж, время и т. д.), основной номер класса, идентификатор родительского узла и тип связи с ним, а также ссылки на слова, семантически тесно связанные с данным. Полученное дерево представляет собой подробное описание системы связей слов в предложении. Этот инструментарий выступает основой для дальнейшего решения различных частных задач: выявления терминов, классификации текстов [32] и т. д. Результаты и обсуждение. Тексты стратегий: результаты лингвистического анализа Как уже отмечалось выше, наш текст объемом более 335 тыс. слов (около 75 авторских листов) 14 Предсинтаксический модуль и часть синтаксического модуля, управляющего выполнением правил, входят в состав лексического анализатора. © Рослякова Н. А., Митрофанова И. В., Каневский Е. А., Боярский К. К., 2023 68
Made with FlippingBook
RkJQdWJsaXNoZXIy MTUzNzYz