Microsoft разработала ИИ-систему под названием SpreadsheetLLM, которая использует большие языковые модели для анализа и интерпретации данных электронных таблиц в Excel. Инструмент обеспечивает обработку обширных двумерных сеток, гибкие макеты и различные варианты форматирования путём сериализации данных и включения адресов ячеек, значений и форматов в их поток.
Инструмент включает в себя компонент, который сжимает электронные таблицы. Он состоит из трёх модулей: один анализирует структуру электронной таблицы и отбрасывает нетабличное содержимое; другой переводит данные в более эффективное представление; третий агрегирует данные.
SpreadsheetLLM в своей текущей форме имеет некоторые ограничения. Например, инструмент игнорирует цвета фона ячеек. Ему также не хватает семантического сжатия для ячеек, содержащих естественный язык.
Тем не менее, в тестах он превзошёл традиционные подходы на 25,6% в условиях контекстного обучения GPT-4. Кроме того, SheetCompressor сокращает использование токенов для кодирования электронных таблиц на 96%, что значительно снижает вычислительные затраты. Так, электронная таблица, содержащая 576 строк и 23 столбца, которые в противном случае дали бы 61 240 токенов, может быть уменьшена до более компактного представления из 708 токенов.
Этот инструмент может упростить обработку данных в нескольких отраслях, решая задачи бухгалтерского учета и анализа данных. SpreadsheetLLM позволит нетехническим пользователям запрашивать данные электронных таблиц и манипулировать ими, используя подсказки на естественном языке.
Также инструмент может дополнять работу специалистов в области финансов, бухгалтерского учета и других, требующих анализа больших объёмов данных. Например, в модели представлена структура «Цепочки электронных таблиц» (CoS), которая может разложить рассуждения по электронным таблицам в конвейер «обнаружение-соответствие-рассуждение».
Более интригующей является способность модели работать как со структурированными, так и с неструктурированными данными электронных таблиц. По мнению исследователей, этот аспект потенциально может уменьшить галлюцинации в результатах, генерируемых ИИ, а электронная таблица будет служить «источником истины» для повышения надёжности анализа.
SpreadsheetLLM пока находится на стадии исследования.
Ранее компания открыла доступ к надстройке Python Editor в Excel в Windows для участников программы Microsoft 365 Insider на бета-канале.
ссылка на оригинал статьи https://habr.com/ru/articles/829942/
Добавить комментарий