Передача указателя на набор полей примитивных типов, расположенных в определённом порядке, — широко используемый паттерн. Так передаются указатели на структуры и объекты, массивы, файловые и сетевые буферы, данные в общей памяти и специальные типы (к примеру, массивы виртуальных функций), а отладчик, получив указатель на стек, может просматривать значения содержащихся в нём переменных.
Если набор полей, доступный по указателю, содержит данные различных типов, обычной практикой является определение типов структур, описывающих расположение полей в наборе. Так, заголовочные файлы Windows содержат сотни подобных типов. Для C/C++, допускающих прямые арифметические операции над указателями, данная возможность является, скорее, синтаксическим сахаром, существенно упрощающим доступ к таким полям, тогда как для языков, строже следящих за типобезопасностью, она может быть единственной.
Тем не менее, подход с определением структур имеет свои недостатки. Во-первых, количество типов имеет тенденцию быстро расти с усложнением API. Во-вторых, код работы с каждым типом структуры нужно писать (или генерировать) отдельно — или же делать типы шаблонными, теряя возможность дать каждому полю осмысленное имя. В-третьих, в ситуациях, когда порядок и типы полей не известны во время компиляции, написать соответствующий тип структуры попросту невозможно.
В данной статье я хочу показать принятую в нашем проекте организацию работы с подобными наборами полей в стиле C++ — через соответствующие типы итераторов.
Постановка задачи
Имеется указатель на последовательность двоичных полей примитивных типов, организованных в записи. Требуется определить итераторы, которые могут использоваться для перемещения по данной последовательности, чтения и записи отдельных полей. При этом:
-
Внутри записи все поля выровнены по фиксированному размеру. Поля меньшего размера дополняются незначащими байтами, поля большего размера отсутствуют.
-
Размер, по которому выравниваются поля, в одних случаях известен во время компиляции, в других (например, при возврате итератора из виртуальной функции, принимающей размер поля как аргумент) — во время выполнения.
-
Поля последовательности могут быть одного типа или разных типов. В первом случае итератор работает как обычный итератор C++, во втором — допускает чтение и запись любых примитивных типов, размер которых не превышает текущий размер выравнивания полей.
-
Порядок байтов в полях может совпадать с естественным порядком байтов данной платформы (big или little endian) или с сетевым порядком байтов (всегда big endian).
-
В одних случаях порядок байтов известен во время компиляции, в других (например, при возврате итератора виртуальной функцией, осуществляющей доступ к локальным или доступным по сети данным) — только во время выполнения. Хранить и проверять состояние нужно во втором случае, но не в первом (оптимизация). На платформе, где сетевой порядок байтов совпадает с естественным, хранить и проверять состояние не нужно никогда.
-
Поля, к которым осуществляется доступ, могут иметь гарантию правильного выравнивания или не иметь такой гарантии. В первом случае доступ к ним нужно проводить в конечных типах (соответствующие команды копирования многобайтных слов будут корректно работать на всех платформах), тогда как во втором случае требуется побайтовое копирование.
-
Операции чтения и записи, перемещения по последовательности и произвольного доступа к её элементам должны осуществляться в обычной для итераторов C++ форме.
-
Итератор может допускать доступ для чтения и записи или только для чтения (const-итератор).
В качестве стандарта реализации был выбран C++20.
Архитектура
В первой версии описываемого кода типов итератора было 4: binary_record_iterator, binary_record_const_iterator, specialized_binary_record_iterator и specialized_binary_record_const_iterator. Типы без суффикса const позволяли модифицировать последовательность, типы с таким суффиксом — не позволяли. Типы с префиксом specialized работали с последовательностями полей одного и того же типа, а типы без этого префикса — с последовательностями полей разных типов.
Практика показала, что 90% кода этих типов совпадает или отличается незначительно, посему в конечном счёте четыре класса слились в один. Сам класс получился шаблонным, с четырьмя аргументами:
-
Тип поля последовательности: void позволяет работать с любым типом, любой другой тип — только со значениями данного типа.
-
Стратегия копирования содержимого полей.
-
Стратегия определения размера поля.
-
Булев флаг — признак константности последовательности, по которой осуществляется итерация.
Стратегия копирования содержимого полей осуществляет непосредственно чтение и запись полей, доступных по указателю. Доступны несколько типов стратегий:
Стратегия |
Описание |
endianness_converter |
Копирует поля по одному байту. Хранит флаг состояния, указывающий, сохраняется ли при доступе к полям порядок байтов или меняется на обратный. |
endianness_keeper |
Копирует поля по одному байту. Всегда сохраняет порядок байтов. Не имеет состояния. |
endianness_reverser |
Копирует поля по одному байту. Всегда меняет порядок байтов на обратный. Не имеет состояния. |
native_field_copier |
Копирует поля прямым присваиванием экземпляров конечного типа. Всегда сохраняет порядок байтов. Не имеет состояния. |
Необходимость побайтового копирования полей в ряде случаев может быть неочевидна. Тем не менее, существуют ситуации, когда просто так привести указатель к типу значения, разыменовать и выполнить присваивание нельзя — например, если данные прочитаны из файла или приняты по сети и находятся в буфере с неверным выравниванием. В зависимости от компилятора и процессора операция прямого присваивания таких значений может дать неверный результат, поскольку определённые команды копирования многобайтовых слов предполагают, что данные размещены в памяти с корректным выравниванием.
В своё время ваш покорный слуга наступил на эти грабли при разработке SCADA-системы на базе ARM-компьютера Moxa UC-7110. При чтении значения с плавающей точкой, доступного по указателю, оно отличалось от ожидаемого, хотя побайтовое сравнение показывало идентичность эталону. Использование функции memcpy() вместо простого разыменования с присваиванием позволило решить проблему.
В то же время, в случаях, когда значения гарантированно расположены в памяти с корректным выравниванием, побайтового копирования хотелось бы избежать. Стратегия native_field_copier позволяет перейти к многобайтным инструкциям, что обычно быстрее.
Таким образом, при чтении значений, гарантированно имеющих естественный порядок байтов, используются native_field_copier или endianness_keeper, в зависимости от наличия гарантий на выравнивание полей. В случаях, когда порядок полей нужно всегда менять на противоположный, используется endianness_reverser. Наконец, если алгоритм должен работать как с прямым, так и с обратным порядком байтов, используется стратегия endianness_converter — самая тяжёлая за счёт хранения и проверки флага состояния.
Для проверки того, какое выравнивание является естественным для данной платформы, используется заголовочник <bit>, который как раз подвезли в C++20. Фактически используемые типы стратегий копирования значений определены следующим образом:
static constexpr std::endian network_byte_order = std::endian::big; using local_or_network_field_copier = std::conditional_t<std::endian::native == network_byte_order, endianness_keeper, endianness_converter>; using network_field_copier = std::conditional_t<std::endian::native == network_byte_order, endianness_keeper, endianness_reverser>;
local_or_network_field_copier используется там, где требуется доступ к данным, полученным локально или по сети, а network_field_copier — там, где ведётся работа исключительно с сетевыми данными. Такое определение переводит максимальное количество проверок на этап компиляции. Там, где данные заведомо имеют корректное выравнивание, используется native_field_copier.
Стратегий определения размера поля всего две, и они гораздо проще:
runtime_record_size |
Позволяет менять размер поля во время выполнения. Содержит состояние — размер поля. |
fixed_record_size |
Размер поля определяется только во время компиляции (аргументом шаблона). Не имеет состояния. |
Итераторы предоставляют стандартные операции: пре- и пост-инкремент и декремент, а также операторы +, -, += и -= с аргументами типа size_t и ptrdiff_t. Единицей перемещения является поле, размер которого определяется текущей стратегией ширины поля. Для определения взаимного расположения двух итераторов доступен полный комплект операторов сравнения, а также оператор -. Присутствует также синтаксический сахар: операторы проверки на (не)равенство nullptr и дублирующие их операторы ! и приведения к bool.
Для доступа к данным используются операторы разыменования и доступа по индексу. Кроме того, доступны методы для чтения (у любых итераторов) и записи (у неконстантных) полей с автоматическим перемещением к следующему полю, а также для получения текущих размера поля и указателя на данные. Также есть специальный метод для чтения 64-битной записи в тип size_t с контролем переполнения для 32- и менее битных платформ.
Метод specialize() используется для перехода от нетипизированных итераторов к типизированным. Метод with_record_size фиксирует размер поля, заменяя текущую стратегию стратегией fixed_record_size с переданным аргументом шаблона.
Реализация
Экземпляры стратегий копирования байтов и определения размера поля включены в экземпляр итератора — закрытым наследованием, чтобы сэкономить место при отсутствии состояния у стратегии.
Итератор, сконструированный конструктором по умолчанию или с единственным nullptr-аргументом, не указывает на какие-либо данные. Также доступны конструкторы копирования и перемещения и соответствующие операторы присваивания. Основные же конструкторы принимают обязательный указатель на данные (const void* для константного итератора, void* для обычного) и аргументы стратегий.
В качестве аргументов стратегий могут быть переданы экземпляры самих стратегий. Альтернативно, для стратегии копирования данных можно передать порядок байт (std::endian) или признак его инверсии, а для стратегии определения размера поля — значение этого самого размера в байтах. Стратегии, допускающие изменение параметра в рантайме, сохраняют переданное значение, а не имеющие состояния — проверяют (через assert), что переданное значение соответствует их поведению. Аргументы для стратегий, имеющих состояние, обязательны, для не имеющих состояния — опциональны.
Указатель на данные всегда хранится как char* или const char* для удобства навигации по полям. Операции перемещения по данным выглядят тривиально:
template <typename element_type, typename field_copier, typename record_size_policy, bool is_const> class binary_record_iterator : private field_copier, private record_size_policy { public: binary_record_iterator& operator+=(std::ptrdiff_t offset) { assert(is_forward_offset_valid(offset)); m_data += offset * static_cast<ptrdiff_t>(record_size_policy::get_record_size()); return *this; } };
Здесь is_forward_offset_valid() — простейшая проверка переполнения при выполнении арифметических операций с указателями. Поскольку данных о доступном диапазоне данных у итератора нет, выход за его границы не контролируется.
template <typename element_type, typename field_copier, typename record_size_policy, bool is_const> class binary_record_iterator : private field_copier, private record_size_policy { private: bool is_forward_offset_valid(std::ptrdiff_t offset) const { if (offset >= 0) return std::numeric_limits<std::ptrdiff_t>::max() / static_cast<std::ptrdiff_t>(record_size_policy::get_record_size()) >= offset && m_data + offset * static_cast<ptrdiff_t>(record_size_policy::get_record_size()) >= m_data; else return std::numeric_limits<std::ptrdiff_t>::min() / static_cast<std::ptrdiff_t>(record_size_policy::get_record_size()) <= offset && m_data + offset * static_cast<ptrdiff_t>(record_size_policy::get_record_size()) < m_data; } };
Для совместимости со стандартными алгоритмами определены типы-члены iterator_category, value_type, difference_type, reference и pointer.
Доступ к значению при разыменовании итератора осуществляется при помощи вспомогательного класса binary_record_reference, имеющего те же аргументы шаблона, что и класс итератора. Как и итератор, binary_record_reference содержит указатель на данные типа char* или const char*, а также наследует стратегии копирования данных и определения размера поля в закрытом режиме. Первая стратегия используется по прямому назначению, вторая — для проверки того, что размер копируемого значения не превышает размера поля.
Существует две специализации binary_record_reference. Первая работает с итераторами полей фиксированного типа и допускает чтение и запись только значений данного типа. Вторая работает с последовательностями полей разных типов и позволяет читать и писать значения любых типов, размер которых не превышает размера поля, заданного стратегией.
Чтение и запись поля фиксированного типа выглядят тривиально:
template <typename element_type, typename field_copier, typename record_size_policy, bool is_const> class binary_record_reference : private field_copier, private record_size_policy { public: operator element_type() const { assert(sizeof(element_type) <= record_size_policy::get_record_size()); element_type value; field_copier::read(m_data, &value); return value; } template <bool is_const2 = is_const, typename = std::enable_if_t<!is_const2>> binary_record_reference& operator=(element_type value) { assert(sizeof(element_type) <= record_size_policy::get_record_size()); // Если обмануть компилятор, передав явный аргумент is_const2 = false при // is_const = true, следующая строка всё равно не скомпилируется field_copier::write(value, m_data); return *this; } };
Чтение и запись полей произвольных типов реализованы аналогично:
template <typename field_copier, typename record_size_policy, bool is_const> class binary_record_reference<void, field_copier, record_size_policy, is_const> : private field_copier, private record_size_policy { public: template <typename type> operator type() const { assert(sizeof(type) <= record_size_policy::get_record_size()); static_assert(std::is_arithmetic<type>::value || std::is_enum<type>::value || std::is_pointer<type>::value || std::is_same<type, std::nullptr_t>::value, "Unsupported value type"); type value; field_copier::read(m_data, &value); return value; } template <typename type, bool is_const2 = is_const, typename = std::enable_if_t<!is_const2>> binary_record_reference& operator=(type value) { assert(sizeof(type) <= record_size_policy::get_record_size()); static_assert(std::is_arithmetic<type>::value || std::is_enum<type>::value || std::is_pointer<type>::value || std::is_same<type, std::nullptr_t>::value, "Can only access arithmetic and enum values"); field_copier::write(value, m_data); return *this; } };
Поскольку возможность получить корректный указатель на значение хранимого типа в общем случае не гарантируется, binary_record_reference не переопределяет оператор взятия адреса.
Применение
Система, ради которой писалась данная обёртка, оперирует пакетами двоичных данных, состоящими из двух частей: данных фиксированного размера и данных переменного размера.
Часть фиксированного размера организована как последовательность 64-битных полей. Как правило, одно поле содержит одно примитивное значение размером до 64 бит (незанятые байты игнорируются). Единственное исключение — массивы фиксированного размера, элементы которых располагаются в стык и могут занимать более одного поля: так, массив из пяти 16-битных значений займёт два 64-битных поля, внутри которых первые 80 бит содержат значения, а оставшиеся 48 бит не используются.
Данные динамического размера используются для передачи контейнеров произвольной длины и содержат элементы этих самых контейнеров, упакованные без дырок. Ссылки на такие контейнеры размещаются в части фиксированного размера в виде двух 64-битных полей: количества элементов и адреса.
Итераторы, служащие для чтения данных, определены так:
using handle_type = std::uint64_t; using pack_field_const_iterator = binary_record_iterator<void, local_or_network_field_copier, fixed_record_size<sizeof(handle_type)>, true>; using dynamic_data_const_iterator = binary_record_iterator<void, local_or_network_field_copier, runtime_record_size, true>; template <typename element_type> using specialized_dynamic_data_const_iterator = binary_record_iterator<element_type, local_or_network_field_copier, fixed_record_size<sizeof(element_type)>, true>;
Алгоритмы чтения данных работают с базовым абстрактным типом пакета:
enum class dynamic_data_pointer : uint64_t; class data_pack { public: virtual ~data_pack() = default; // Метод доступа к данным фиксированного размера virtual pack_field_const_iterator read_static_data( size_type field_count) const = 0; // Методы доступа к данным динамического размера virtual dynamic_data_const_iterator read_dynamic_data( dynamic_data_pointer pointer, size_t element_size, size_type element_count) const = 0; template <typename element_type> specialized_dynamic_data_const_iterator<element_type> read_dynamic_data( dynamic_data_pointer pointer, size_t element_count) const { return read_module_side_data(pointer, sizeof(element_type), element_count) .specialize<element_type>(); } };
Аргументы field_count и element_count служат для проверки выхода за границы доступных данных.
Существует два типа пакетов. Первый описывает данные, размещённые в оперативной памяти: имеющие естественный порядок байтов и использующие значение указателя в качестве адреса динамических данных (dynamic_data_pointer). Второй описывает пакет, полученный по сети: данные имеют сетевой порядок байтов, а в качестве адреса динамических данных используется смещение от начала пакета.
Благодаря слоям абстракции, реализованным классами пакета и итератора, алгоритму чтения данных не нужно ничего знать об их происхождении. Следующая врезка демонстрирует чтение нескольких значений из пакета в структуру. Запись будет выглядеть аналогично.
struct data { std::int32_t a; double b; std::string c; }; data read_data_from_pack(const data_pack* pack) { data result; size_t string_size; dynamic_data_pointer string_data_pointer; auto static_data = pack->read_static_data(4); static_data.read(&result.a).read(&result.b); // Чтение цепочкой вызовов if (!static_data.read_length(&string_size)) throw std::bad_alloc(); // Длина строки не помещается в наш size_t string_data_pointer = *static_data++; // Чтение в стиле итератора auto string_data_begin = pack->read_dynamic_data<char>(string_data_pointer, string_size); result.c = std::string(string_data_begin, string_data_begin + string_size); return result; }
Пример выше показывает работу с итераторами, полученными от пакета, однако не раскрывает весь потенциал данного решения. Типы всех читаемых из пакета полей известны заранее, и того же результата можно было бы добиться приведением указателя на данные пакеты к типу структуры из четырёх полей (с последующей инверсией порядка байтов при необходимости).
Удобство от работы с такими «итераторами по void*» становится более очевидным при написании обобщённого кода, не привязанного к конкретным типам. Например, следующий пример извлекает из пакета последовательность полей произвольных типов и передаёт их некому функтору:
template <typename cpp_type, typename = void> struct type_traits; template <typename cpp_type> struct type_traits<cpp_type, std::enable_if_t<std::is_arithmetic<cpp_type>::value || std::is_enum<cpp_type>::value>> { static constexpr size_type field_count = 1; static cpp_type extract_value(data_pack*, pack_field_const_iterator position) { return static_cast<cpp_type>(*position); } }; template <> struct type_traits<std::u16string, void> { static constexpr size_type field_count = 2; static std::u16string extract_value(const data_pack* pack, pack_field_const_iterator position) { size_t size; if (!position.read_length(&size)) throw std::bad_alloc(); if (size == 0) return std::u16string(); module_pointer pointer; position.read(&pointer); auto data = pack->template read_dynamic_data<char16_t>(pointer, size); if (!data) throw invalid_data_pack(); return std::u16string(data, data+size); } }; template <typename... cpp_types> struct argument_sequence_handler; template <typename first_type, typename... next_types> struct argument_sequence_handler<first_type, next_types...> { using next_handler = argument_sequence_handler<next_types...>; using current_traits = type_traits<first_type>; template <typename callback_type, typename... extracted_arguments> static auto extract_and_invoke(data_pack *pack, pack_field_const_iterator input, callback_type callback, extracted_arguments&&... arguments) { first_type current_argument = current_traits::extract_value(pack, input); return next_handler::extract_and_invoke(pack, input + current_traits::field_count, callback, arguments..., current_argument); } }; template <> struct argument_sequence_handler<> { template <typename callback_type, typename... extracted_arguments> static auto extract_and_invoke(data_pack*, pack_field_const_iterator, callback_type callback, extracted_arguments&&... arguments) { return callback(argunents...); } };
Теперь шаблон argument_sequence_handler можно использовать для передачи в функтор произвольного числа аргументов произвольных типов, извлечённых из пакета:
auto static_data = pack->read_static_data(4); auto const concatenated = argument_sequence_handler<std::u16string, std::u16string>:: extract_and_invoke(pack, static_data, std::plus<std::u16string>());
Поддержка новых типов добавляется элементарно — через специализацию type_traits. Аналогичным образом можно добавить алгоритмы для сохранения данных в пакет.
Таким образом, удалось добиться разделения обязанностей между несколькими классами:
-
Класс binary_record_iterator отвечает за перемещение по байтовым последовательностям и за предоставление высокоуровневого интерфейса доступа к ним.
-
Стратегии копирования значений отвечают за доступ к данным и конверсию порядка байтов при необходимости.
-
Стратегии размера поля следят за упаковкой данных с дырками или без дырок.
-
Классы, производные от data_pack, отвечают за хранение данных и получение итераторов на них, а также сообщают итератору, какой порядок байтов используется в конкретном пакете.
-
Класс type_traits отвечает за чтение и запись конкретных типов, получая всю необходимую информацию о расположении данных от пакета и argument_sequence_handler.
-
Наконец, argument_sequence_handler берёт на себя работу по упорядочению работы с отдельными значениями, закодированными в последовательности.
В нашем проекте данный подход используется при взаимодействии модулей с ядром, а также при передаче пакетов данных по сети. Это позволяет расширять API взаимодействия (добавлять новые последовательности полей) без раздувания кода — простой специализацией соответствующих шаблонов. Помимо примитивных типов и строк, система позволяет обмениваться массивами фиксированного и динамического размера, а также дескрипторами объектов. Также планируется добавить поддержку структур.
Ссылки
-
Стратегии копирования полей и размера записи
-
Обработчик конкретных типов стороны ядра и стороны модуля
-
argument_sequence_handler стороны ядра и стороны модуля
ссылка на оригинал статьи https://habr.com/ru/articles/736860/
Добавить комментарий