Microsoft выпустила MarkItDown — открытый инструмент на Python для преобразования файлов и офисных документов в Markdown

от автора

Microsoft выпустила MarkItDown — открытый инструмент для преобразования файлов и офисных документов в Markdown. Проект также доступен в виде онлайн‑версии. Например, там можно сконвертировать файлы из Office в язык разметки с синтаксисом форматирования простого текста Markdown.

Решение MarkItDown написано на языке программирования Python и опубликовано на GitHub под лицензией MIT.

Библиотека MarkItDown от Microsoft в настоящее время поддерживает следующие форматы файлов: PDF (.pdf), PowerPoint (.pptx), Word (.docx), Excel (.xlsx), изображения (метаданные EXIF ​​и OCR), аудио (метаданные EXIF ​​и транскрипция речи), HTML (специальная обработка Wikipedia), а также различные другие текстовые форматы (csv, json, xml и так далее) и даже ZIP‑файлы (после процесса перебирания содержимого).

Microsoft пояснила, что разработчики также могут настроить библиотеку MarkItDown для использования больших языковых моделей для описания изображений. Поскольку библиотека MarkItDown доступна по лицензии MIT с открытым исходным кодом, разработчики могут свободно использовать, изменять и распространять её. Единственное требование — включить в дистрибутив исходную лицензию и уведомление об авторских правах.


ссылка на оригинал статьи https://habr.com/ru/articles/867770/


Комментарии

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *