Труды КНЦ вып.8 (ИНФОРМАЦИОННЫЕ ТЕХНОЛОГИИ вып. 3/2017(8))

УДК 004.91 А.В. Авдеев, А.С. Шемякин Институт информатики и математического моделирования технологических процессов Кольского НЦ РАН АВТОМАТИЗАЦИЯ КОНВЕРТАЦИИ ДОКУМЕНТОВ MS OFFICE В ФОРМАТ PDF НА ВЕБ-СЕРВЕРЕ ПОД УПРАВЛЕНИЕМ CENTOS LINUX* Аннотация В данной работе представлен механизм загрузки документов MS Office на веб­ сервер, работающий под управлением OS Linux (CentOS 7 .3 x6 4 ), и конвертации загруженных файлов в формат PDF. Механизм загрузки и конвертации файлов реализован на языке Python с использованием фреймворка Django. Конвертация документов MS Office в формат PDF осуществляется при помощи LibreOffice и скрипта Unoconv. Ключевые слова: python, LibreOffice, PDF, обработка документов. A.V. Avdeev, A.S. Shemyakin AUTOMATING CONVERSION OF MS OFFICE DOCUMENTS TO PDF ON A WEB SERVER RUNNING CENTOS LINUX Abstract This paper presents the mechanism of loading of MS Office documents on a web server running OS Linux (CentOS x64 7.3) and convert the downloaded files to a PDF. The mechanics of downloading and converting files is implemented in Python using the framework Django. Convert MS Office documents to PDF format is done using LibreOffice and Unoconv script. Keywords: python, LibreOffice, PDF, document processing. В [4] была представлена программная система, позволяющая автоматизировать разработку планирующей документации. Система позволяет загружать документы в формате MS Office - doc, rtf, docx, odt. Хранение в базе данных файлов в таком формате не представляет сложностей, однако возникают проблемы с отображением таких файлов в окне браузера - требуется предварительная конвертация в формат HTML. Такая конвертация требует использования сторонних библиотек, например, Aspose [2]. Следует отметить, что на возможность выбора библиотеки может существенно повлиять выбор языка программирования, на котором создается программная система. Формат HTML рассчитан на отображение текста с простым форматированием и не предназначен для отображения сложных документов, содержащих, например, колонтитулы, формулы, разделы с различным форматированием. Формат PDF позволяет обойти эти ограничения, т.к. предназначен для представления полиграфической продукции в электронном виде [3]. Работа выполнена при поддержке РФФИ, проекты № 15-29-06973, № 16-07-00562. 166

RkJQdWJsaXNoZXIy MTUzNzYz