Если вы работаете с временными рядами в PostgreSQL, скорее всего сталкивались с необходимостью в выгрузке данных в Python, а потом как-то возвращали результат обратно. Это работает, но неудобно и медленно. Я написала расширение pg_stl, которое позволяет делать всё это прямо внутри базы — на нативном C, без экспорта данных наружу.
В этой статье расскажу, что это такое, как работает и почему это быстрее, чем подход с Python.
Зачем это нужно
Стандартный подход к анализу временных рядов в PostgreSQL выглядит примерно так:
• Делаем SELECT и выгружаем данные из базы
• Отправляем их в Python или R
• Считаем нужные метрики
• Возвращаем результаты обратно
У такого подхода есть несколько минусов: риски безопасности, дополнительные зависимости, сложности самого процесса передачи данных туда-обратно, который съедает время.
Расширение pg_stl решает эту проблему: всё вычисляется внутри базы, данные никуда не уходят, а C-код работает напрямую с памятью PostgreSQL через его внутреннее API.
Что реализовано
В расширении три алгоритма:
• ACF (автокорреляционная функция) — показывает корреляцию ряда с самим собой на разных лагах. Помогает найти сезонность и наличие тренда.
• PACF (частная автокорреляционная функция) — в отличие от ACF, показывает только прямую зависимость при заданном лаге, исключая влияние промежуточных. Полезна для подбора параметров ARIMA.
• STL-декомпозиция — разбивает ряд на три составляющие: тренд, сезонность и остаток. Основана на методе LOESS.
Как использовать
Установка
Через Docker (проще всего):
docker compose up --build
Или вручную (нужен PostgreSQL 16 и build-essential):
makemake installpsql -d mydb -c "CREATE EXTENSION pg_stl;"
Структура репозитория

Расширение опубликовано под лицензией PostgreSQL License — это permissive лицензия, позволяющая свободно использовать, копировать и модифицировать код без ограничений. Исходный код доступен на GitHub.
Репозиторий: github.com/nadyaloseva/pg_ts_analysis
Расширение состоит из нескольких файлов, каждый из которых отвечает за свою часть работы.
-
stl.c — основной файл с реализацией всех алгоритмов на языке C: автокорреляционной функции (ACF), частной автокорреляционной функции (PACF) и STL-декомпозиции. Именно здесь находится вся вычислительная логика.
-
pg_stl—1.0.sql — SQL-файл, в котором объявляются функции расширения и описывается их сигнатура. PostgreSQL использует его при установке, чтобы зарегистрировать функции и связать их с реализацией из stl.c.
-
pg_stl.control — файл с метаданными расширения: название, версия и описание. PostgreSQL читает его при выполнении команды CREATE EXTENSION.
-
Makefile — конфигурация сборки на основе PGXS (системы сборки расширений PostgreSQL). Позволяет собрать расширение командой make и установить его командой make install.
-
Dockerfile и docker-compose.yml — позволяют поднять тестовое окружение с PostgreSQL одной командой, без необходимости настраивать базу вручную.
-
pg_python_testing.ipynb — Jupyter-ноутбук, в котором сравниваются результаты работы расширения с аналогичными функциями из Python-библиотеки statsmodels. Использовался для проверки корректности реализации и замера производительности.
Использование в СУБД
ACF (автокорреляционная функция)

Она вычисляет корреляцию ряда с его же значениями, сдвинутыми на несколько шагов назад. Простыми словами — насколько похоже поведение ряда сегодня на то, что было день, неделю или месяц назад. Это позволяет определить период сезонности, обнаружить тренд, а также использовать результат для подбора параметра q в ARIMA-моделях.
PACF (частная автокорреляционная функция)

Вторая функция — частичная автокорреляционная. В отличие от ACF, она измеряет только прямую связь между значениями, исключая влияние промежуточных лагов. Это позволяет точнее понять структуру зависимостей и определить параметр p для ARIMA.
В основе алгоритма лежит система линейных уравнений Юла-Уокера для AR-модели. Для оптимизации расчета используется рекурсивный алгоритм Дурбина-Левинсона, который решает систему пошагово, используя результаты предыдущего шага
STL-декомпозиция

STL-декомпозиция разбивает временной ряд на три составляющие: тренд, сезонность и остаток. Это позволяет отделить устойчивые долгосрочные изменения от циклических колебаний и случайного шума.
Алгоритм работает итерационно: внешний цикл снижает влияние выбросов, внутренний — поочерёдно уточняет тренд и сезонность. Сглаживание выполняется методом локальной регрессии LOESS, которая подстраивается под характер данных в каждой точке
Итого
pg_stl — это рабочий инструмент для тех, кто хочет анализировать временные ряды прямо внутри PostgreSQL. ACF и PACF работают заметно быстрее Python-аналогов. STL пока медленнее на больших рядах, но зато данные не покидают базу и нет внешних зависимостей.
Буду рада обратной связи!
ссылка на оригинал статьи https://habr.com/ru/articles/1042360/