Разбираемся с устройством баз данных

При разработке практически любого программного продукта очень скоро возникает потребность в хранении данных. Для этого используют специальные сервисы — СУБД (система управления базами данных)

Сегодня залезем внутрь и разберёмся, как они работают. Для начала немного вводных

Оговорка: обсуждаем стандартные SQL СУБД, не углубляемся в разновидности и их особенности

Взаимодействие с БД

Программе, которой необходимо сохранить или получить какую-то информацию, абсолютно не нужно знать, как устроены базы данных, в каком формате и как там все хранится. Вместо этого она использует SQL (Structured Query Language) — специальный язык для общения с СУБД

Например, чтобы получить имя пользователя с id = 42:

SELECT name FROM users WHERE id = 42;

А чтобы добавить красную лампу

INSERT INTO devices (type, color) VALUES (‘lamp’, ‘red’);

Схема

В SQL-базах данные сохраняются в таблицы. В каждой таблице есть колонки — поля с определённым типом и строки — записи об отдельных объектах, например:

id	name	age	admin
1	Вася	19	false
2	Петя	23	true
3	Коля	22	false

Лезем внутрь

Чтобы разобраться с тем, как работает СУБД, проследим путь от SQL-запроса до возвращенных данных

Прием запроса, парсинг
СУБД принимает SQL-запрос от пользователя, проверяет его на синтаксические ошибки и из набора букв преобразует в AST (Abstract Syntax Tree). Когда-то подробно коснёмся этой темы
Семантический анализ
Запрос сопоставляется с реальной базой. Проверяется, существуют ли запрашиваемые таблицы, совпадают ли типы данных
Планирование
СУБД определяет оптимальный план выполнения задачи: генерирует различные варианты, оценивает их сложность и выбирает лучший
Исполнение
Каждый узел плана — оператор, который вызывает следующий. Например,
— Взять строку из таблицы
— Проверить, выполняется ли условие (id = 42)
— Добавить строку в результат, если выполняется
— Повторить для следующей строки
Хранение данных
Перед записью данные сериализуются в бинарный формат и сохраняются на диск блоками по 4–16 КБ — страницами
Индексы
Специальная структура — индекс — позволяет осуществлять более быстрый поиск. Он хранит отсортированные ключи и соответствующие указатели на реальные данные. Для поиска по проиндексированному полю не нужно перебирать всю таблицу, можно просто взять уже сохраненный указатель Если индекса нет, СУБД выполняет полный перебор таблицы, проверяя каждую строку
Кэширование
Диск медленный, поэтому СУБД хранит часто используемые страницы в оперативной памяти, что позволяет реже читать диск и ускоряет работу
Транзакции
Транзакция — группа операций, которые должны выполниться вместе
Обычно СУБД следуют наборам требований ACID:
— Atomicity (атомарность) — транзакция рассматривается как единое целое: либо выполнится все, либо ничего
— Consistency (согласованность) — исполнение транзакции приводит систему в корректное состояние
— Isolation (изоляция) — транзакции, исполняющиеся в одно время не должны мешать друг другу
— Durability (устойчивость) — после успешного выполнения транзакции ее результат сохраняется даже при сбое системы
Журналирование
Перед тем, как выполнить действие, СУБД записывает его в журнал. Это позволяет восстанавливать данные в случае сбоя
Конкурентность
Может случится такое, что несколько транзакций одновременно обращаются к одним и тем же данным. Чтобы избежать конфликтов, используются блокировки и MVCC (версионность данных)

После обработки данные возвращаются клиенту. В случае, если возвращать ничего не требуется (при добавлении, изменении или удалении записей), возвращается статус: успешно или нет

Итоговая схема от запроса до данных:
— SQL
— парсинг
— AST
— план выполнения
— исполнение
— индексы / диск
— результат

Что думаете про такой формат больших постов? На какие темы хотели бы видеть ещё?

Телеграм канал: @eleday

ссылка на оригинал статьи https://habr.com/ru/articles/1031874/