Труды КНЦ (Технические науки) 2/2022(13).
TF-IDF (TF — term frequency, IDF — inverse document frequency) — статистическая мера, используемая для оценки важности слова в контексте документа, являющегося частью коллекции документов (корпуса). Вес некоторого слова пропорционален частоте употребления этого слова в документе и обратно пропорционален частоте употребления слова во всех документах коллекции. PLSA (Probabilistic Latent Semantic Analysis — вероятностный латентный семантический анализ) — вероятностная тематическая модель представления текста на естественном языке. Модель называется латентной, так как предполагает введение скрытого (латентного) параметра — темы. Модель предложена Томасом Хофманном в 1999 г. LDA (Latent Dirichlet allocation — латентное размещение Дирихле) — порождающая модель, метод тематического моделирования, впервые был представлен в качестве графовой модели для обнаружения тематик Дэвидом Блеем, Эндрю Ыном и Майклом Джорданом в 2003 г. Похож на PLSA, отличие заключается в том, что в LDA предполагается, что распределение тематик имеет в качестве априорного распределение Дирихле. ARTM (Additive Regularization of Topic Models — аддитивная регуляризация тематических моделей) — математический подход тематического моделирования, основанный на максимизации взвешенной суммы логарифма правдоподобия и дополнительных критериев — регуляризаторов. BigARTM — библиотека с открытым кодом для тематического моделирования больших коллекций текстовых документов и массивов транзакционных данных. Эффективная потоковая параллельная реализация вероятностного тематического моделирования на основе аддитивной регуляризации. GSDMM (Gibbs Sampling Dirichlet Multinomial Mixture) — метод тематического моделирования, основан на предположении, что один документ посвящен только одной теме. Авторы этого метода (Цзяньхуа Инь и Цзяньюнг Ван) утверждают, что он отлично (лучше, чем метод Vanilla LDA) работает с короткими текстами, такими как твиты и обзоры фильмов. API (Application Programming Interface) — описание способов взаимодействия одной компьютерной программы с другими. RPC (Remote Procedure Call — удалённый вызов процедур, иногда — вызов удалённых процедур) — класс технологий, позволяющих программам вызывать функции или процедуры в другом адресном пространстве (на удалённых узлах либо в независимой сторонней системе на том же узле). REST (Representational State Transfer — дословно «передача репрезентативного состояния» или «передача “самоописываемого” состояния») — архитектурный стиль взаимодействия компонентов распределённого приложения в сети. Другими словами, REST — это набор правил для программиста: как организовать написание кода серверного приложения, чтобы упростить обмен данными между всеми системами и масштабирование приложения. REST является альтернативой RPC. В Интернете вызов удалённой процедуры может представлять собой обычный HTTP-запрос (обычно GET или POST; такой запрос называют REST-запросом), а необходимые данные передаются в качестве параметров запроса. Для веб-служб, построенных с учётом REST (то есть не нарушающих накладываемых им ограничений), применяют термин “RESTful”. HTML (от англ. HyperText Markup Language — язык гипертекстовой разметки) — стандартизирован ный язык гипертекстовой разметки документов для просмотра веб-страниц в браузере. HTTP (HyperText Transfer Protocol — протокол передачи гипертекста) — протокол прикладного уровня передачи данных, изначально — в виде гипертекстовых документов в формате HTML, в настоящее время используется для передачи произвольных данных. JSON (JavaScript Object Notation) — текстовый формат обмена данными, основанный на JavaScript. NoSQL — обозначение класса разнородных систем управления базами данных (СУБД), появившихся в конце 2000-х — начале 2010-х гг. и существенно отличающихся от традиционных реляционных СУБД с доступом к данным средствами языка SQL. Другими словами, это семейство СУБД, которые хранят данные в формате, отличном от реляционных таблиц. MongoDB — документоориентированная СУБД, не требующая описания схемы таблиц. Считается одним из классических примеров NoSQL-систем, использует JSON-подобные документы и схему базы данных. Написана на языке программирования C++. Труды Кольского научного центра РАН. Серия: Технические науки. 2022. Т. 13, № 2. С. 5-22. Transactions of the Kola Science Centre of RAS. Series: Engineering Sciences. 2022. Vol. 13, No. 2. P. 5-22. © Федоров А. М., Датьев И. О., Шишаев М. Г., Федотов С. С., Вишняков И. Г., 2022 16
Made with FlippingBook
RkJQdWJsaXNoZXIy MTUzNzYz