Ключевые основы автоматического выбора алгоритмов кластеризации мультимодальных данных на основе мета-обучения

Задача кластеризации относится к классу «обучения без учителя» и является фундаментальным инструментом exploratory data analysis (разведочный анализ данных). В отличие от классификации, здесь отсутствует размеченный набор данных или какая-либо заведомо известная информация о нём. Алгоритм самостоятельно выявляет критерий группировки объектов, и именно в этой самостоятельности кроется ключевая проблема: отсутствие априорной разметки делает оценку результатов крайне субъективной, так как разные алгоритмы обладают уникальным индуктивным смещением (inductive bias), проецируя различные предположения о геометрии и плотности скрытых классов. Универсальный алгоритм, который подходит для всех задач, построить невозможно (теорема Клейнберга, являющаяся следствием более общей теоремы о «бесплатном обеде»), поэтому алгоритмы кластеризации нужно подбирать и настраивать почти для каждой задачи отдельно. Задача выбора и настройки алгоритма машинного обучения является экспертной, что достаточно затратно по времени, поскольку работа выполняется человеком фактически вручную.

Особую сложность представляет кластеризация мультимодальных данных. В прикладных областях, таких как биоинформатика, анализ медиа-контента, медицинская диагностика и мониторинг сложных технических объектов, данные чаще всего представлены в мультимодальном виде. Это означает, что каждый анализируемый объект одновременно описывается гетерогенными источниками информации — структурированными числовыми векторами, неструктурированными текстами, изображениями или временными рядами. Ключевой сложностью при построении систем автоматической кластеризации для мультимодальных данных является разработка эффективного способа слияния (fusion) разнородных признаковых пространств с сохранением уникальной внутренней структуры каждой модальности.

В этой связи критически важным направлением развития автоматического машинного обучения (AutoML) становится автоматическая кластеризация (AutoClustering) — область, ориентированная на исключение человеческого фактора из процессов выбора алгоритмов (Algorithm Selection, AS), оптимизации гиперпараметров (Hyperparameter Optimization, HPO) и синтеза многокомпонентных вычислительных конвейеров. Использование мета-обучения (meta-learning) позволяет радикально ускорить этот процесс. Систематически накапливая опыт решения предыдущих задач (мета-знания), мета-модели способны мгновенно рекомендовать оптимальные конфигурации для новых, ранее не встречавшихся мультимодальных наборов данных, избавляя от необходимости проведения ресурсоёмких итерационных поисков «с нуля».

В данной статье мы разберём, что такое мета-обучение в контексте задачи кластеризации, какие данные можно считать мультимодальными, как устроены современные AutoClustering-системы, сравним существующие решения и выделим наиболее перспективные архитектурные паттерны.

Что такое мультимодальные данные в контексте мета-обучения?

Прежде чем говорить о выборе алгоритмов, необходимо понять, с какими данными мы имеем дело. В контексте мета-обучения «мультимодальность» означает, что каждый объект описывается не одним, а несколькими гетерогенными источниками информации. Например:

Медицинская диагностика: для одного пациента есть клинические показатели (числовой вектор), результаты МРТ-сканирования (изображения), геномные данные (последовательности нуклеотидов) и текстовая история болезни.
Анализ медиа-контента: пост в социальной сети состоит из изображения, текста, аудиодорожки и временной метки.
Мониторинг технических объектов: данные с вибродатчиков (временные ряды), термограммы (изображения) и журналы событий (текст).

Проблема в том, что стандартные алгоритмы кластеризации (, , иерархическая) работают с одним признаковым пространством, где все объекты представлены векторами одинаковой природы. Мультимодальные данные требуют специальных подходов к слиянию (fusion) модальностей.

Как работает мета-обучение для выбора алгоритмов кластеризации?

Основная идея мета-обучения состоит в сведении задачи выбора алгоритма к задаче обучения с учителем. Задачи описываются мета-признаками (meta-features) — компактными дескрипторами, характеризующими свойства решаемой задачи (размерность, распределение данных, степень разреженности и т.д.). Агрегированные сведения о работе алгоритмов (лучший алгоритм, ранжирование, предсказываемая эффективность) выступают целевой функцией.

Процесс построения такой системы разделяется на две независимые фазы:

Офлайн-контур (накопление мета-знаний): для набора исторических мультимодальных датасетов выполняется полный перебор конфигураций алгоритмов кластеризации, каждое полученное разбиение оценивается с помощью внутренних индексов валидации (Cluster Validity Indices, CVIs), а затем извлекаются мета-признаки и обучается мета-модель (классификатор, регрессор или модель ранжирования).
Онлайн-контур (вывод рекомендаций): для нового неразмеченного мультимодального датасета экстрагируется мета-представление, и мета-модель выдаёт рекомендацию: какой алгоритм кластеризации с какими гиперпараметрами использовать.

Рисунок №1 - Двухконтурная архитектура системы автоматического выбора алгоритмов кластеризации на основе мета-обучения. — Рисунок №1 — Двухконтурная архитектура системы автоматического выбора алгоритмов кластеризации на основе мета-обучения.

Важно понимать, что в реальных сценариях внешняя разметка отсутствует, поэтому использование внутренних CVIs является единственным валидным способом оценки геометрического качества кластеризации.

Эволюция мета-признаков: от простых статистик до глубоких эмбеддингов

Чтобы построить мета-модель необходимо сопоставить каждый многомерный мультимодальный набор данных с его компактным дескриптором — вектором мета-признаков. Развитие методов характеризации наборов данных прошло путь от простейших статистик до глубоких инвариантных представлений.

Классические ручные мета-признаки

В ранних исследованиях использовались базовые статистические метрики:

LgE — десятичный логарифм от объёма обучающей выборки.
LgREA — десятичный логарифм отношения количества объектов к числу признаков.
PMV — процент пропущенных значений в матрице признаков.

Современные библиотеки (например, PyClustKit) извлекают расширенный спектр мета-признаков, разделённый на пять семейств:

Дескриптивные методы: базовые топологические размерности, включая общее число признаков, объектов, соотношение типов шкал.
Статистические методы: моменты распределений и детальный анализ распределения попарных расстояний между точками.
Ориентиры: быстрый запуск простейших алгоритмов для оценки внутренней сложности структуры.
Методы на основе сходства: статистики корреляционных матриц признаков.
Графовые методы: анализ связности графа взаимных ближайших соседей.

Обучаемые мета-представления

Ручное проектирование признаков неизбежно упускает нелинейные зависимости и требует значительных вычислений. В современных системах этот процесс заменяется сквозным обучением представлений датасетов.

Dataset2Vec — архитектура на основе DeepSets, инвариантная к перестановкам объектов и столбцов внутри набора данных. Модель обучается на батчах различных датасетов с использованием вспомогательных задач, заставляя векторы схожих по структуре задач концентрироваться в компактных областях латентного мета-пространства.

Task2Vec — универсальный метод характеризации задач, строящий эмбеддинг на основе оценки диагональных элементов информационной матрицы Фишера предобученной зондирующей нейросети. В мультимодальном режиме зондирующая сеть пропускает через себя данные различных модальностей, а градиенты весов формируют фиксированный вектор задачи.

Сравнительная характеристика методов представлена в таблице №1:

Метод	Тип мета-признаков	Работа с мультимодальностью
Классический	Простые статистики	Ограничена (требует конкатенации)
PyClustKit	Различные признаки	Хорошая (агрегирование метрик)
Dataset2Vec	Латентный вектор	Требует адаптации
Task2Vec / M3OOD	Вектор на основе матрицы Фишера	Идеальная

Обзор существующих AutoClustering-решений

На текущий момент разработан ряд фреймворков автоматизации кластеризации, использующих различные парадигмы мета-обучения и оптимизации.

AutoCluster

Одна из первых систем, использующая базу из 24 мета-признаков для поиска похожих исторических задач. На основе найденных прецедентов выбирается подмножество перспективных алгоритмов, для которых запускается локальный сеточный поиск. Финальное решение формируется путём мажоритарного голосования ансамбля моделей, оптимизированного по трём классическим CVIs. Главный недостаток — сильное индуктивное смещение в сторону выпуклых сферических кластеров.

ML2DAC

Более продвинутый фреймворк, использующий 22 мета-признака для первоначального предсказания наиболее адекватного CVI. Мета-знания применяются для «тёплого старта» оптимизатора: система выбирает лучшие исторические конфигурации в качестве начальных точек, после чего запускается оптимизация на основе гауссовских процессов для тонкой настройки параметров под специфику нового набора данных. Работа ML2DAC была удостоена знака «воспроизводимость» на конференции SIGMOD 2023.

aMLProt

Специализированный доменный AutoML-фреймворк, оптимизированный под работу с биологическими последовательностями и белками. В его основе лежит интеграция сверхбыстрого алгоритма кластеризации идентичности последовательностей MMseqs2, сопряжённого с мета-выбором классификаторов и регрессоров.

PyClustUI

Графический инструмент для сквозного создания мета-репозиториев, построенный на основе библиотеки PyClustKit. Поддерживает 49 мета-признаков и 45 внутренних CVIs. Ключевая особенность — кэширование промежуточных вычислений в виде DAG-графа, что сокращает накладные расходы на 56–96%.

Сравнение фреймворков:

Фреймворк	Кол-во мета-признаков	Стратегия HPO	Меры оценки качества	Мультимодальность
autoCluster	24 ручных	Grid Search	Ансамбль из 3 CVIs	Нет (только числовые таблицы)
ml2dac	22 ручных	Warm-start + Bayesian Optimization	Динамически предсказываемый CVI	Ограничена
aMLProt	Белковые эмбеддинги	Модульный выбор конвейеров	MMseqs2	Да (последовательности, структуры)
PyClustUI	49 (PyClustKit)	Офлайн Grid Search / онлайн предсказание	45 CVIs	Да (настраиваемое агрегирование)

Анализ литературы позволяет выделить пять основных стратегий интеграции мультимодальных данных для задач AutoClustering:

1. Ранняя интеграция (Early Fusion)

Простейший подход — конкатенация предварительно извлечённых признаков каждой модальности в единый высокоразмерный вектор перед запуском алгоритма кластеризации. Например, для медицинских задач этот подход использовался для объединения клинических показателей и высокоразмерных биомаркеров. Главный недостаток метода заключается в том, что разнородные признаки обладают несопоставимой шкалой, различной плотностью распределения и дисперсией, что приводит к доминированию одной модальности над другими и ухудшает качество работы метрических алгоритмов кластеризации. Для простоты изложения, представил процесс ранней интеграции на иллюстрации №2.

Рисунок №2 - Механизм работы Early Fusion — Рисунок №2 — Механизм работы Early Fusion

2. Промежуточная интеграция (Intermediate Fusion)

В отличие от ранней интеграции, где признаки разных модальностей просто склеиваются в один длинный вектор, промежуточная интеграция предлагает иной философский подход: вместо того чтобы насильно «смешивать» гетерогенные данные на входе, мы сначала извлекаем из каждой модальности её внутреннее представление, а затем уже на уровне скрытых слоёв нейронной сети учимся их совмещать в общее латентное пространство. Это пространство становится той «плавильной печью», где шумы отдельных источников подавляются, а семантически важные инварианты — наоборот, усиливаются.

Современные методы промежуточной интеграции делятся на три большие семьи: вероятностные графовые модели (Probabilistic Graphical Models), реконструктивные автокодировщики и контрастивные архитектуры. Рассмотрим каждую из них подробно.

Рисунок №3 - Архитектура, механизмы и особенности глубоких мультимодальных машин Больцмана — Рисунок №3 — Архитектура, механизмы и особенности глубоких мультимодальных машин Больцмана

1) Глубокие мультимодальные машины Больцмана (Deep Multimodal Boltzmann Machines) — это вероятностные генеративные модели, основанные на сетях доверия. Они умеют моделировать совместное распределение данных нескольких типов одновременно и выполнять двунаправленный вывод — как от модальностей к общему смыслу, так и от общего смысла к синтезу отсутствующих модальностей.

Архитектура
DMBM состоит из трёх уровней (см. краткое описание «Иллюстрации №3» в источниках):

Нижний (видимый) слой разделён на независимые группы нейронов — по одной группе на каждую модальность. Например, для изображений могут использоваться сверточные RBM, для текста — бинарные RBM.
Промежуточные модально-зависимые скрытые слои — для каждой модальности своя иерархия, которая «повышает абстракцию» признаков.
Общий репрезентативный слой — единый для всех модальностей. Именно здесь происходит слияние. Связи между слоями — симметричные и двунаправленные.

Как работает?
Модель стремится минимизировать энергию совместного состояния. Пусть $v^{(1)}, v^{(2)}, \dots, v^{(k)}$ — видимые переменные разных модальностей, h — скрытые переменные общего слоя. Энергетическая функция имеет вид:

$E(v^{(1)}, \dots, v^{(k)}, h) = -\sum_{m=1}^{k} \left( (v^{(m)})^T W^{(m)} h \right) - смещения$

Обучение происходит через контрастную дивергенцию. Но ключевая инновация — функция потерь на основе корреляций признаков: модель максимизирует взаимную информацию между скрытыми представлениями разных модальностей. Формально, ищутся параметры, которые максимизируют корреляцию $\text{corr}(f_m(v^{(m)}), f_{m'}(v^{(m')}))$ для любой пары модальностей.

Пайплайн для AutoClustering:

Предобучение каждой модальности отдельно (обычно через стек RBM) — это даёт хорошие начальные веса.
Совместная тонкая настройка всей сети с использованием мультимодальной функции потерь.
После обучения фиксируются веса, и для нового объекта, даже если у него отсутствует одна модальность, можно через общий слой получить эмбеддинг (достаточно подать хотя бы одну модальность, а сеть сама «дорисует» остальное благодаря двунаправленности).
Полученные эмбеддинги подаются на вход любому алгоритму кластеризации (k‑means, DBSCAN, спектральный).

Преимущества:

Глубокое извлечение инвариантов — модель «видит» скрытые закономерности, общие для всех источников.
Естественная работа с пропущенными модальностями (модель может генерировать недостающие данные).
Устойчивость к шуму: локальные выбросы в одной модальности не разрушают общее представление.

Ограничения:

Высокая вычислительная сложность — обучение DMBM требует многократного прохода по всем данным и выполнения цепочек Гиббса, что на больших объёмах становится непрактичным.
Сложность масштабирования на большое число модальностей (с ростом k число параметров растёт квадратично).
Требовательность к объёму обучающей выборки — нужно много размеченных (пусть и не полностью) мультимодальных примеров.

Для AutoClustering на распределённых платформах типа Apache Spark классические DMBM применяются редко, однако они остаются золотым стандартом для малых и средних мультимодальных датасетов, где качество важнее скорости.

Рисунок №4 - Процесс обучения мультимодального автокодировщика — Рисунок №4 — Процесс обучения мультимодального автокодировщика

2) Мультимодальные автокодировщики, это семейство моделей, вдохновлённое классическими одномерными автокодировщиками, но адаптированное для нескольких входов и выходов. Основная идея: сжать все модальности в одно узкое «бутылочное горлышко» — латентный вектор, а затем восстановить из него все исходные модальности одновременно. Если восстановление получается точным, значит, латентный вектор действительно уловил наиболее важную совместную информацию.

Архитектура (Иллюстрация №4):

Множество энкодеров — по одному на модальность. Каждый может быть свёрточной сетью (для изображений), LSTM (для текста), полносвязной сетью (для табличных данных).
Объединительный слой — обычно это просто конкатенация выходов энкодеров или их среднее. Затем эта конкатенация проецируется через ещё один полносвязный слой в общий латентный вектор небольшой размерности .
Множество декодеров — каждый пытается восстановить свою модальность из этого единого вектора.

Математика
Основная функция потерь — взвешенная сумма ошибок реконструкции:

$L = \sum_{m=1}^{k} \lambda_m \cdot \|x^{(m)} - \hat{x}^{(m)}\|_2^2$

где $\lambda_m$ — веса, задающие важность каждой модальности. Часто добавляют регуляризацию (например, KL-дивергенцию в вариационных автокодировщиках), чтобы латентное пространство было не только компактным, но и непрерывным — это улучшает кластеризацию.

Пайплайн:

Обучение на мультимодальных выборках, где для каждого объекта присутствуют все модальности (или хотя бы большая часть). Модель учится одновременно минимизировать ошибку реконструкции по всем модальностям.
Экстракция эмбеддингов: для нового объекта (даже если некоторые модальности отсутствуют) мы прогоняем через энкодеры то, что есть, получаем латентный вектор . Если модальность отсутствует, можно либо занулить вход, либо использовать специальный условный энкодер.
Кластеризация: к векторам z применяется любой стандартный алгоритм (например, в латентном пространстве).

Особенности:

Восстановление пропущенных данных — обученный декодер может сгенерировать недостающую модальность по латентному вектору. Это полезно для систем, где одна из модальностей слишком дорога в сборке.
Подавление избыточности — если две модальности несут почти одинаковую информацию, автокодировщик научится использовать лишь один канал, а другой будет игнорироваться (или наоборот, если штрафовать за размерность).
Сепарация общей и специфичной информации — существуют варианты (например, мультимодальные вариационные автокодировщики с разделением латентного пространства), где одна часть вектора отвечает за общее, а другая — за уникальные черты каждой модальности.

Недостатки:

Всё ещё требует значительных вычислительных ресурсов (хотя меньше, чем DMBM).
Критична настройка весов $\lambda_m$ — неправильный выбор может привести к тому, что модель будет игнорировать «трудные» модальности (например, слишком зашумлённые).
Для кластеризации важно, чтобы латентное пространство было хорошо структурировано (кластеры были разделимы). Автокодировщик сам по себе не оптимизирует это напрямую, поэтому часто используют глубокие кластеризующие автокодировщики с дополнительной функцией потерь на компактность групп.

В системах AutoClustering автокодировщики часто выступают в роли предобработчика: они проецируют мультимодальные данные в единый признаковый вектор, после чего запускается либо мета-модель выбора алгоритма, либо классический HPO.

Рисунок №5- Архитектура и механизм контрастивного обучения

3) Контрастивное обучение (Contrastive Learning), в отличие от генеративных моделей (DMBM, автокодировщики), контрастивное обучение является дискриминативным по своей природе. Оно не пытается восстановить данные, а учится отличать согласованные пары модальностей (например, изображение и его подпись) от несогласованных (изображение и произвольный текст). В результате получается отображение в общее пространство, где векторы, соответствующие одному семантическому объекту, располагаются близко, а разные объекты — далеко.

Архитектура на примере CLIP:

Энкодер изображения (обычно Vision Transformer или ResNet).
Энкодер текста (трансформер).
Проекционные головы — небольшие MLP, которые переводят выходы энкодеров в векторы одинаковой размерности (скажем, 512).

Как учится (пайплайн):

Берётся батч из согласованных пар (изображение, текст). Получаем векторов: $I_1, \dots, I_N$ и $T_1, \dots, T_N$ .
Вычисляем матрицу косинусных сходств $S_{ij} = \cos(I_i, T_j)$ размера .
Цель: на диагонали должны быть высокие значения (согласованные пары), вне диагонали — низкие.
Контрастивная функция потерь — например, InfoNCE:

$L = -\frac{1}{N} \sum_{i=1}^{N} \log \frac{\exp(\cos(I_i, T_i) / \tau)}{\sum_{j=1}^{N} \exp(\cos(I_i, T_j) / \tau)}$ ,

где — температурный параметр. Аналогично симметричный член для текста → изображение.

Математическая суть: модель учится минимизировать косинусное расстояние $1 - \cos(I_i, T_i)$ для правильных пар и максимизировать его для неправильных. При этом она не требует явной реконструкции, поэтому обучение идёт быстрее и стабильнее, чем у DMBM.

Применение в AutoClustering:

После обучения энкодеры замораживаются и используются для трансформации любой модальности в общий эмбеддинг.
Например, для мультимодального датасета, содержащего изображения и текстовые описания, мы вычисляем эмбеддинги изображений через визуальный энкодер, а текстов — через текстовый, и затем объединяем их (например, берём среднее или просто конкатенируем) в один вектор, который подаётся на вход алгоритму кластеризации.
Преимущество: эмбеддинги уже «согласованы» — семантически близкие объекты (хоть изображения, хоть тексты) оказываются рядом в едином пространстве. Это радикально улучшает качество метрических алгоритмов (k‑means, DBSCAN) по сравнению с ранней конкатенацией сырых признаков.

Почему это круто для AutoClustering?

Инвариантность к масштабам — контрастивная потеря автоматически нормализует векторы на гиперсфере, убирая проблему доминирования одной модальности.
Устойчивость к шуму — модель игнорирует неинформативные признаки, так как они не помогают различить пары.
Скорость — контрастивное обучение масштабируется на огромные датасеты (например, CLIP тренировался на 400 млн пар).
Zero-shot возможности — даже если новая модальность не участвовала в обучении, можно взять предобученную модель (например, CLIP), дообучить последний слой на маленькой выборке, и она даст разумные эмбеддинги для изображений и текста.

Ограничения:

Требует наличия согласованных пар данных. Если в вашем датасете изображения и тексты не привязаны друг к другу (например, просто набор изображений и отдельный набор текстов), контрастивное обучение не применимо напрямую.
Результат сильно зависит от выбора аугментаций и температуры .
Не умеет генерировать новые данные (в отличие от DMBM или автокодировщиков), но для кластеризации это не критично.

3. Поздняя интеграция (Late Fusion)

Такой подход предполагает независимую кластеризацию каждой модальности с помощью локально оптимизированных алгоритмов с последующим объединением полученных базовых разбиений консенсус-функциями. В рамках мета-обучения этот процесс оптимизируется путём предсказания структуры ансамбля и параметров консенсус-функции на основе комплексного описания входных модальностей.

Если ранняя интеграция пытается «смешать всё сразу», а промежуточная учит единое латентное пространство, то поздняя интеграция (Late Fusion) предлагает радикально иную философию: пусть каждая модальность живёт своей жизнью. Изображения кластеризуются отдельно, тексты — отдельно, временные ряды — отдельно. А уже потом, на этапе финальных меток, мы «договариваемся» об общем компромиссном разбиении. Такой подход также называют ансамблевой кластеризацией (ensemble clustering) или консенсусной кластеризацией.

Почему это работает? Потому что разные модальности могут «видеть» разные аспекты структуры данных. Например, для видео с лекцией: аудиодорожка хорошо выделяет спикеров по голосу, а визуальный ряд — по жестам и положению у доски. Объединяя оба разбиения, мы получаем более точное выделение фрагментов, где спикер действительно что-то объясняет, а не просто молчит. При этом если одна модальность зашумлена (например, плохая запись звука), консенсус с другой модальностью «исправляет» ошибки.

3.1. Архитектура Late Fusion

Процесс делится на два последовательных этапа:

Этап 1: Генерация ансамбля (Base Clustering)
Для каждой модальности запускается свой (возможно, локально оптимизированный) алгоритм кластеризации. Входные данные могут быть как исходными (изображения, сырые тексты), так и предобработанными (эмбеддинги от CLIP или автокодировщика). На выходе мы получаем набор базовых разбиений — векторов меток кластеров для одних и тех же объектов:

$E = \{y^{(1)}, y^{(2)}, \dots, y^{(k)}\}$

где $y^{(m)} \in \{1, \dots, K_m\}^N$ — распределение объектов по кластерам по данным только mm-й модальности. Важно, что количество кластеров может различаться для разных модальностей.

Этап 2: Консенсусная кластеризация (Consensus Clustering)
На вход консенсус-функции подаётся ансамбль и, возможно, дополнительные гиперпараметры . Функция строит единое финальное разбиение , которое должно быть «наиболее согласованным» со всеми базовыми разбиениями. Классическая формулировка задачи:

$y^* = \arg\min_{y} \sum_{m=1}^{k} w_m \cdot \text{dist}(y, y^{(m)}),$

где — мера несогласованности (например, 1 минус нормализованная взаимная информация), а — веса, отражающие доверие к каждой модальности. В более общем виде с учётом выбора самой консенсус-функции:

$y^* = \arg\min_{cf \in CF, \, h \in H, \, E \subset B} \text{CVI}(D, cf(E, h)),$

где — пространство возможных ансамблей (т.е. какие алгоритмы и с какими параметрами запускать на каждой модальности), — индекс валидации кластеризации (например, силуэт). Это и есть мета-оптимизационная задача, которую решает мета-обучение.

3.2. Типы консенсус-функций

За десятки лет предложено множество способов объединять разбиения. Наиболее популярные в системах AutoClustering:

Голосование (Voting) — каждый объект получает метку, которая чаще всего встречается среди базовых разбиений. Адаптивные версии (ACV, ABV) учитывают качество каждого базового алгоритма, измеренное на «надёжной» части данных.
MCLA (Meta-Clustering Algorithm) — сначала строится граф, в котором вершины — это кластеры из разных базовых разбиений. Затем этот граф кластеризуется (мета-кластеризация) — так рождаются «супер-кластеры». Финальная метка объекта — тот супер-кластер, куда попадает большинство его базовых кластеров.
QMI (Quadratic Mutual Information) — используется для оценки сходства разбиений через квадратичную взаимную информацию. Финальное разбиение выбирается так, чтобы максимизировать сумму квадратичных взаимных информаций со всеми базовыми. Это обеспечивает хорошую устойчивость к шуму.
Матрица ко-принадлежности (Co-association matrix) — строим матрицу , где элемент — доля базовых разбиений, в которых объекты и попали в один кластер. Затем применяем к этой матрице иерархическую кластеризацию.

Выбор консенсус-функции — это ключевая мета-задача, потому что для одних типов данных лучше работает голосование, для других — MCLA, для третьих — спектральный метод на матрице ко-принадлежности. Именно здесь и приходит на помощь мета-обучение.

3.3. Оптимизация Late Fusion через мета-обучение

В классическом варианте специалист вручную подбирает, какие алгоритмы запускать на каждой модальности (скажем, на изображениях — с кластерами, на тексте — с ), а также выбирает консенсус-функцию. Современные системы (например, фреймворк EffEns) автоматизируют этот процесс:

Шаг 1. Извлечение мета-признаков
Для каждого мультимодального датасета вычисляются мета-признаки, характеризующие каждую модальность по отдельности и их взаимосвязи. Это могут быть:

Статистики распределений (асимметрия, эксцесс) для каждой модальности.
Оценки «размерности» (intrinsic dimension) отдельных модальностей.
Кросс-модальные метрики (например, корреляция между эмбеддингами разных модальностей).

Шаг 2. Модель генерации ансамбля (EGM)
EGM — это мета-классификатор (часто — градиентный бустинг или случайный лес), обученный на исторических данных. На вход подаются мета-признаки текущего датасета, на выходе — структура ансамбля : для каждой модальности предсказывается, какой алгоритм кластеризации (, , агломеративный) с каким диапазоном гиперпараметров запустить. Например: «для изображений использовать с , для текстов — с ».

Шаг 3. Модель выбора консенсус-функции (CFM)
CFM — ещё один мета-классификатор, который по тем же мета-признакам предсказывает наиболее подходящий тип консенсус-функции (голосование, MCLA, QMI, спектральный). Экспериментально показано, что ни одна функция не доминирует на всех датасетах, и правильный выбор даёт выигрыш в 15–30% по качеству (по индексу силуэт).

Шаг 4. Байесовская оптимизация гиперпараметров консенсус-функции
Даже выбрав, скажем, MCLA, мы должны настроить её внутренние параметры (например, количество мета-кластеров). Поскольку вычисление финального CVI может быть дорогим, используется байесовская оптимизация с гауссовским процессом или суррогатной моделью (см. раздел 5 о MetaBBO). Благодаря мета-обучению начальные точки выбираются не случайно, а на основе похожих исторических задач — это даёт warm start (метод инициализации модели, при котором обучение начинается не с нуля, а с использованием весов, параметров или результатов, полученных на предыдущих этапах) и сокращает число итераций в 2–3 раза.

4. Функциональные сети и гибридные конвейеры

Для повышения устойчивости слияния гетерогенных конвейеров применяются функциональные сети. Например, в задачах анализа сложных мультимедийных данных изображение обрабатывается конвейером на базе алгоритма нечетких средних и классификатора AutoGluon, а текстовая модальность обрабатывается большой языковой моделью с использованием индуктивного промптинга. Выходы обеих ветвей объединяются через неглубокую функциональную сеть, что гарантирует математическую стабильность слияния и высокую интерпретируемость.

Функциональные сети — это сравнительно новый подход к слиянию гетерогенных вычислительных ветвей, который предлагает компромисс между «чёрным ящиком» нейронных сетей и жёстко заданной математической формулой. Их главный принцип: сохранить интерпретируемость на этапе слияния, но при этом автоматически настроить веса модальностей. В отличие от классических нейронных сетей, здесь нет обратного распространения ошибки в привычном смысле — слияние происходит через аналитические функциональные зависимости.

4.1. Концепция и архитектура

Представьте, что у нас есть два независимых конвейера:

Визуальный конвейер: изображение → Fuzzy C-Means (степени принадлежности к кластерам) → AutoGluon (классификатор, обученный на небольшом размеченном подмножестве).
Текстовый конвейер: текст → большая языковая модель (LLM) → извлечение семантических эмбеддингов через индуктивный промптинг.

Выход каждого конвейера — это некоторый вектор признаков (например, вероятности принадлежности к 5 классам). Задача — объединить эти два вектора в финальное решение (скажем, метку кластера или оценку принадлежности). Именно эту задачу решает неглубокая функциональная сеть.

Формально, пусть для объекта визуальный конвейер выдаёт вектор $f_{\text{vis}}(x) \in \mathbb{R}^{d_1}$ , а текстовый — $f_{\text{text}}(x) \in \mathbb{R}^{d_2}$ . Функциональная сеть определяет выход:

$y(x) = \Phi(A \cdot f_{\text{vis}}(x) + B \cdot f_{\text{text}}(x))$ ,

где и — матрицы (или диагональные веса), а — простая нелинейность (например, для классификации, либо просто сигмоида). Ключевое отличие от полносвязной нейросети: матрицы и могут быть найдены аналитически (например, методом наименьших квадратов) или через очень быстрый итеративный процесс, не требующий полного обратного распространения по всему конвейеру.

4.2. Механизм обучения и интерпретируемость

В традиционной нейронной сети, если мы прицепим слой слияния к концам двух больших моделей, то при обратном распространении ошибки градиенты «уйдут» в эти модели и могут их испортить (разрушить уже выученные представления). Функциональная сеть этого избегает:

Фиксация предобученных конвейеров — веса визуального и текстового конвейеров не меняются.
Обучение только слоя слияния — но не градиентным спуском, а с помощью функциональной регрессии. Ищется функция из некоторого семейства (например, линейная комбинация с последующей нормировкой), которая минимизирует целевую функцию качества кластеризации (CVI) на валидационной выборке.
Отсутствие backpropagation — вместо этого решается система линейных уравнений (если — линейная) или применяется быстрое нелинейное отображение типа RBF. Это в сотни раз быстрее, чем обучать даже один слой нейросети.

Благодаря такой «безмозглой» математической основе функциональные сети обладают гарантированной локальной стабильностью: малое возмущение в одном конвейере (например, небольшая ошибка в работе LLM) приводит к ограниченному возмущению на выходе. В обычной нейросети нелинейности могут «раздуть» ошибку.

Интерпретируемость: поскольку сеть неглубокая (часто 1-2 слоя), мы можем выписать аналитический вклад каждой модальности в финальное решение. Например, для линейной функциональной сети с последующим :

$P(\text{класс } c \mid x) = \frac{\exp\left( w_{\text{vis}, c}^T f_{\text{vis}}(x) + w_{\text{text}, c}^T f_{\text{text}}(x) \right)}{\sum_{c'} \exp(\dots)}$

Тогда вес $w_{\text{vis}, c}[i]$ прямо говорит, насколько признак визуального конвейера важен для класса . Это позволяет эксперту проверить, не противоречат ли такие веса здравому смыслу (например, не слишком ли сильно модель полагается на зашумлённую текстовую модальность).

5. Контекстная кластеризация в языковых моделях (In-Context Clustering)

С появлением предобученных больших языковых моделей возник подход ICC. Вместо явного вычисления расстояний текстовые описания объектов или оцифрованные числовые данные подаются непосредственно в контекст LLM, которая за счёт внутреннего механизма внимания улавливает сложные нелинейные зависимости и осуществляет авторегрессионную разметку кластеров в режиме zero-shot.

Последнее слово в области автоматической кластеризации — это использование больших языковых моделей (LLM) в режиме in-context learning. Вместо того чтобы вручную задавать метрику расстояния или проектировать эмбеддинги, мы просто описываем задачу словами и подаём данные в виде текста. LLM, благодаря своему механизму внимания, сама выявляет, какие объекты похожи, и присваивает им метки кластеров.

Этот подход кардинально меняет парадигму: мы переходим от «выбери алгоритм и настрой его» к «просто объясни, что нужно сделать, и модель сделает это в zero-shot режиме».

5.1. Принцип работы: механизм внимания как неявная матрица сходства

В LLM (например, GPT-4, Llama-3, Qwen) основой является многоголовое внимание. Если подать на вход модель последовательность токенов, где каждый объект представлен несколькими токенами, то веса внимания между токенами разных объектов начинают отражать их семантическую близость. Более того, исследования показывают, что в промежуточных слоях матрица внимания приобретает блочно-диагональную структуру — блоки соответствуют кластерам.

Формально, пусть мы сконкатенировали описания объектов в один промпт:
"Object1: ... Object2: ...". После прогона через LLM для каждого токена мы получаем вектор внимания. Аггрегируя внимание между объектами, можно построить матрицу аффинности $A \in \mathbb{R}^{N \times N}$ , где $A_{ij}$ — среднее внимание от токенов объекта к токенам объекта . Затем применить обычную спектральную кластеризацию к этой матрице. В экспериментах такой метод ICC-спектральный даёт качество, сопоставимое с тонко настроенными моделями, и часто превосходит прямое генерирование меток самой LLM.

5.2. Пайплайн ICC для AutoClustering

Шаг 1. Представление данных в текстовой форме
Числовые данные округляются и форматируются: "значение1, значение2, ...". Категориальные признаки переводятся в слова. Если данные мультимодальные (изображения, аудио), используют предобученные энкодеры (CLIP, whisper) для преобразования в текст-подобные эмбеддинги или просто в описания.

Шаг 2. Формирование промпта
Промпт состоит из:

инструкции: "Разбей следующие объекты на кластеры. Выводи только номера кластеров через пробел."
данных: каждый объект начинается с маркера, например "Object 1: ...".
(опционально) примеры: для few-shot варианта можно привести несколько размеченных примеров.

Шаг 3. Прогон через LLM
Модель генерирует последовательность меток кластеров (целых чисел) в авторегрессивном режиме. Например, для 3 объектов: "1 2 1". Механизм внимания на этапе инференса уже «видит» все объекты сразу и может сопоставлять их.

Шаг 4. (Альтернатива) Извлечение матрицы внимания и спектральная кластеризация
Как упоминалось, вместо генерации меток мы берём матрицу внимания из последнего слоя (или усредняем по нескольким слоям), делаем её симметричной и применяем спектральную кластеризацию. Этот путь более стабилен, так как не зависит от «капризов» авторегрессионной генерации (модель может начать генерировать мусор).

5.3. Почему ICC интересен для мультимодальной кластеризации?

Отказ от ручного задания метрики — LLM сама решает, что такое «похожесть». Для данных с неочевидной геометрией (например, когда евклидово расстояние бессмысленно) это огромное преимущество.
Zero-shot адаптация — не нужно собирать размеченную выборку для настройки. Достаточно одного промпта. Если качество не устраивает, можно подкорректировать инструкцию («кластеризуй по цвету, а не по форме») — и повторить.
Учёт сложных паттернов — механизм внимания может улавливать нелинейные и даже реляционные зависимости (например, «объекты, содержащие слово «мяу» и слово «шерсть», относятся к одному кластеру»).
Обработка смешанных типов — в один промпт можно включить и числа, и текст, и даже эмбеддинги изображений (как токены). LLM научится выравнивать их внутренне.

Пример из практики: датасет с распределением Стьюдента (тяжёлые хвосты) — k-means работает плохо, так как выбросы сильно смещают центроиды. ICC (через спектральную кластеризацию на матрице внимания) показал улучшение на 34% по индексу силуэт по сравнению с k-means и на 12% по сравнению с DBSCAN с подобранными параметрами.

5.4. Ограничения и проблемы

Проблема	Пояснение
Длина контекста	Современные LLM имеют контекстное окно до 128k–1M токенов, но для кластеризации 1000 объектов с подробными описаниями это окно может быть превышено. Приходится применять скользящее окно или субдискретизацию.
Вычислительная сложность	Внимание имеет сложность (где — длина описания одного объекта). Для 10 000 объектов это уже миллиарды операций, что делает ICC дороже, чем на порядки.
Нестабильность генерации	LLM может нарушить формат вывода (например, выдать «кластер 1, кластер 2, опять кластер 1» со знаками препинания), что требует постобработки.
Зависимость от промпта	Небольшое изменение формулировки может радикально изменить результат. Пока нет общепринятой методологии подбора промптов для кластеризации.
Отсутствие гарантий	Для критических систем (медицина, финансы) непредсказуемость LLM неприемлема. Классические алгоритмы хотя бы детерминированы.

5.5. ICC в системах AutoClustering

На данный момент ICC — это скорее исследовательский инструмент, чем production-решение. Однако первые интеграции появляются: например, в библиотеке AutoCluster-LLM (экспериментальная версия) предусмотрен режим, когда для «сложных» датасетов, где стандартные метрики не работают, система отправляет запрос к локально запущенной LLM (Llama-3-8B) и получает базовое разбиение, которое затем доуточняется классическими алгоритмами. Такой гибридный подход обещает сочетать семантическую гибкость LLM с вычислительной эффективностью традиционных методов.

В перспективе, с ростом контекстных окон и удешевлением инференса, ICC может стать стандартным компонентом AutoML для кластеризации, особенно в доменах с мультимодальными текстово-визуальными данными, где классические метрики действительно бессильны.

Для наглядности представим сравнительную характеристику подходов:

Подход к интеграции	Механизм реализации	Преимущества	Ограничения
Early Fusion	Прямая конкатенация признаков	Простота, возможность использования любых классических алгоритмов	Чувствительность к масштабу шкал, высокая размерность
Intermediate Fusion	Совместное обучение в латентном пространстве	Фильтрация шумов, извлечение глубоких семантических инвариантов	Высокая вычислительная сложность, потребность в больших выборках
Late Fusion	Независимая кластеризация + консенсус-функции	Устойчивость к локальным искажениям отдельных модальностей	Сложность мета-оптимизации параметров консенсус-функций
Functional Networks	Объединение через неглубокую функциональную сеть	Математическая стабильность, интерпретируемость	Ограниченная гибкость при изменении числа модальностей
In-Context Clustering	Авторегрессионная разметка внутри контекста LLM	Zero-shot адаптация, гибкость	Жесткие ограничения на длину контекста, высокая стоимость

Современные стратегии оптимизации: MetaBBO и суррогатные модели

Кластеризация мультимодальных данных рассматривается как дорогостоящая целевая функция чёрного ящика, где вычисление значения (запуск кластеризации и расчёт CVI) на больших данных требует огромных временных затрат. Для минимизации прямых обращений к целевой функции применяются алгоритмы класса SAEA (Surrogate-Assisted Evolutionary Algorithms).

Эволюционные алгоритмы с суррогатной поддержкой используют суррогатные модели для аппроксимации ландшафта качества кластеризации в зависимости от гиперпараметров. Мета-обучение в данном контексте реализует двухуровневую парадигму, в которой нейросетевая мета-политика обучается на распределении прошлых задач и выдает динамические управляющие решения для низкоуровневого оптимизатора.

Классические суррогаты на основе гауссовских процессов обладают кубической вычислительной сложностью и плохо масштабируются. Для преодоления этих ограничений в современные MetaBBO-архитектуры интегрируется TabPFN — предобученная трансформерная модель для табличных данных. TabPFN выполняет аппроксимацию ландшафта оптимизации в режиме in-context, мгновенно выдавая предсказания качества работы целевого алгоритма кластеризации вместе со строгой оценкой неопределённости, что позволяет стабильно направлять эволюционный поиск без затрат времени на обучение традиционных регрессионных моделей.

Вложенные мета-архитектуры для компенсации геометрического смещения

Каждая внутренняя мера качества имеет собственное геометрическое смещение. Силуэт лучше работает с компактными изолированными кластерами, индекс Дэвиса-Болдуина ориентирован на отношение внутрикластерной дисперсии к межкластерной, а индекс Калински-Харабаса чувствителен к форме распределения. Для решения проблемы субъективности CVIs и снижения размерности пространства признаков применяется трёхкомпонентная вложенная архитектура мета-обучения:

CVIsel (Выбор меры качества): мета-классификатор, предсказывающий наиболее адекватный CVI для специфики топологии нового датасета.
Clusel (Выбор алгоритма кластеризации): модель, прогнозирующая наиболее эффективный алгоритм кластеризации под выбранную меру качества.
FSsel (Выбор метода отбора признаков): модель, предсказывающая наилучший алгоритм фильтрации или снижения размерности признаков.

Такая иерархическая структура позволяет динамически подбирать индекс валидации под специфику топологии данных, гарантируя адекватность последующего выбора алгоритма.

Интерпретируемость решений: XAI в AutoClustering

Автоматические рекомендации алгоритмов кластеризации часто воспринимаются пользователями как решения «чёрного ящика», что сдерживает их внедрение в критически важных областях. Для решения этой проблемы в современные системы мета-обучения внедряются инструменты объяснимости.

Глобальная объяснимость достигается через графы предикатов решений (DPG), которые визуализируют глобальную логику принятия решений мета-моделью. DPG строит граф условий и пороговых значений мета-признаков, определяющих выбор конкретного класса алгоритмов во всём пространстве мета-знаний. С помощью DPG исследователи могут выявить систематические смещения мета-модели и понять, какие именно геометрические свойства мультимодальных латентных пространств заставляют систему отдавать предпочтение тем или иным методам.

Локальная объяснимость обеспечивается с использованием SHAP (Shapley Additive exPlanations). SHAP распределяет отклонение предсказанной эффективности алгоритма от базового среднего значения между вкладами отдельных мета-признаков, что позволяет пользователю наглядно интерпретировать решение системы.

Архитектурные рекомендации: как строить систему сегодня

На основе анализа существующих подходов можно сформулировать следующие рекомендации по проектированию систем автоматического выбора алгоритмов кластеризации мультимодальных данных с использованием мета-обучения:

Проектирование пространства представлений: для мультимодальных данных наиболее стабильные результаты демонстрирует стратегия промежуточной интеграции на основе контрастивного сопоставления модальностей. Полученное латентное пространство минимизирует масштабные расхождения и отсекает локальный шум отдельных источников информации.
Сквозная характеризация задач: рекомендуется уходить от исключительно ручного проектирования мета-признаков в сторону гибридных схем. Наилучшим выбором является комбинация статистических признаков распределения попарных расстояний с глубокими эмбеддингами задач.
Использование вложенных мета-архитектур: для компенсации геометрического смещения мер качества необходимо внедрять трёхкомпонентный конвейер (CVIsel → Clusel → FSsel).
Снижение вычислительной сложности через DAG: внедрение графового представления вычислений индексов валидации является обязательным требованием для масштабирования систем.
Применение современных MetaBBO-суррогатов: при оптимизации гиперпараметров интеграция трансформера TabPFN в качестве суррогатной модели превосходит классические гауссовские процессы за счёт отсутствия затрат на итерационное обучение модели.
Интеграция XAI-компонентов: каждая рекомендация системы должна сопровождаться локальным SHAP-графиком вкладов мета-признаков модальностей и сопоставляться с глобальной картой решений DPG.

Заключение

Системы автоматического выбора алгоритмов кластеризации мультимодальных данных на основе мета-обучения находятся на стыке нескольких активно развивающихся областей: AutoML, meta-learning, multimodal learning и surrogate-assisted optimization. Современные исследования показывают, что гибридные подходы, сочетающие ручную инженерию мета-признаков с глубокими обучаемыми представлениями и вложенными архитектурами, способны обеспечить высокое качество рекомендаций при приемлемых вычислительных затратах. Интеграция XAI-компонентов делает такие системы прозрачными и интерпретируемыми, что критически важно для внедрения в реальные приложения.

Ключевой вывод: не существует единственно правильного способа автоматического выбора алгоритма кластеризации. Эффективность системы определяется совокупностью решений — от стратегии слияния модальностей до выбора суррогатной модели оптимизатора. Поэтому при разработке собственного решения важно не копировать существующие фреймворки, а адаптировать их архитектурные паттерны под специфику вашей предметной области и вычислительные ограничения.

📌 Дисклеймер: об авторе и проекте ClustMetaLearn

Коротко о том, кто мы и чем занимаемся, пока вы читаете про мультимодальные подходы.

Меня зовут Вишняков Данил, я студент магистратуры ИТМО (AI Talent Hub) и исследователь в области AutoML. Вместе с командой мы разрабатываем ClustMetaLearn — систему автоматического выбора алгоритмов кластеризации, но только для табличных данных (без мультимодальности).

В следующей статье расскажу детали: как строили мета-репозиторий, какие мета-признаки реально полезны, чего достигли на бенчмарках (UCI, OpenML). Будет много кода и графиков.

Полезные ссылки:

GitHub: github.com/DanilkaCrazy/ClustMetaLearn
Telegram (IT-мысли и мемы): t.me/donny_dank

📚 Список литературы: откуда мы черпали знания

Наша статья опирается на широкий спектр академических источников — от классических работ по мета-обучению до свежайших препринтов 2025–2026 годов. Ниже мы разбили их по тематическим кластерам, чтобы вы могли легко углубиться в интересующую область. Все ссылки ведут на открытые версии (arXiv, PDF по запросу, официальные сайты конференций).

1. Фундамент: мета-обучение и AutoML для кластеризации

Meta-features for meta-learning – обзорная статья, вводящая понятие мета-признаков и их роль в выборе алгоритмов.
Pure (PDF)
Meta-Learning to Cluster – ранняя работа, предлагающая обучать политику кластеризации на множестве задач.
arXiv:1910.14134
Meta-Learning – глава из книги AutoML.org, дающая систематическое введение в мета-обучение.
AutoML.org (PDF)
OPTIMIZING RECOMMENDATIONS FOR CLUSTERING ALGORITHMS USING META-LEARNING – диссертация, детально разбирающая мета-подход к выбору алгоритмов кластеризации.
DigitalCommons@URI
Automated Exploratory Clustering to Democratize Clustering Analysis – статья, которая легла в основу фреймворка autoCluster.
MDPI Applied Sciences
A Literature Survey and Empirical Study of Meta-Learning for Classifier Selection – обширный обзор и эксперименты по выбору классификаторов, чьи методы применимы и к кластеризации.
IEEE Xplore
Meta-Learning and Few-Shot Learning: A Comprehensive Survey – масштабный обзор алгоритмов и теории мета-обучения.
TechRxiv (PDF)

2. Мультимодальные данные и методы их слияния (Fusion)

Review on machine learning principles for multi-view biological data integration – классический обзор подходов к интеграции биомедицинских данных (раннее, промежуточное, позднее слияние).
Oxford Academic
Parameter-Free Deep Multi-Modal Clustering With Reliable Contrastive Learning – современный метод глубокой мультимодальной кластеризации без подбора параметров.
ResearchGate
Dual-Modal Contrastive Learning for Continual Generalized Category Discovery – ещё один взгляд на контрастивное обучение для двух модальностей.
MDPI Mathematics
Toward Explainable Multimodal Fake News Detection: A Fusion of Prompt Learning and Automated Machine Learning – пример гибридного конвейера с функциональными сетями и AutoML.
ResearchGate
A Novel Multimodal Online News Popularity Prediction Model based on Ensemble Learning – прикладная работа, демонстрирующая ансамблирование модальностей.
Authorea
A Framework for Winter Wheat Soil Moisture Retrieval Based on UAV Remote Sensing and AutoML – применение AutoML к мультимодальным данным дистанционного зондирования.
MDPI Remote Sensing
NeuroNet-AD: A Multimodal Deep Learning Framework for Multiclass Alzheimer’s Disease Diagnosis – медицинское приложение глубокой мультимодальной интеграции.
PubMed
SELECTING OUT-OF-DISTRIBUTION DETECTOR FOR MULTIPLE MODALITIES – выбор детектора выбросов для мультимодальных данных, с пространственными мета-признаками M3OOD.
OpenReview (PDF) (две одинаковые ссылки в списке — оставляем одну)

3. Характеризация датасетов: мета-признаки и эмбеддинги задач

PyClust: Building Meta-learning Repositories for Clustering – описание библиотеки PyClustKit и её 49 мета-признаков, 45 CVIs, DAG-кэширования.
ICDM 2025 paper
Dataset2Vec: Learning Dataset Meta-Features – метод получения обучаемых эмбеддингов датасетов.
University of Hildesheim (PDF)
Dataset2Graph: A GNN-based Methodology for AutoML for Clustering – представление датасета в виде графа и извлечение эмбеддинга через GNN.
DEEM 2025 paper
Task2Vec: Task Embedding for Meta-Learning – эмбеддинги задач на основе информационной матрицы Фишера.
ResearchGate / arXiv:1902.03545
Rethinking of Encoder-based Warm-start Methods in Hyperparameter Optimization – критический анализ энкодерных методов (включая liltab) для стартового приближения в HPO.
arXiv:2403.04720
The implemented meta-features in AutoCluster – таблица мета-признаков из autoCluster.
ResearchGate (рисунок)
Meta-Learning for Clustering Algorithm Selection (de Souto et al., 2008) – ранняя классика, где введены простейшие мета-признаки LgE, LgREA, PMV.
Scribd (PDF)

4. Фреймворки и системы AutoClustering

An opensource library for automl multimodal clustering on Apache Spark – распределённая библиотека, использующая многоруких бандитов и сохраняющая состояние итеративных алгоритмов.
PDF (PDMI RAS)
Ensemble Clustering based on Meta-Learning and Hyperparameter Optimization – фреймворк EffEns, опубликованный в PVLDB.
VLDB Endowment
aMLProt: an automated machine learning library for protein applications – специализированный AutoML для белковых последовательностей.
Oxford Academic Bioinformatics
Meta-learning System for Automated Clustering – трёхкомпонентная архитектура CVIsel → Clusel → FSsel.
CEUR-WS.org (PDF)
Explaining AutoClustering: Uncovering Meta-Feature Contribution in AutoML for Clustering – работа, вводящая SHAP и DPG для интерпретируемости AutoClustering.
arXiv:2602.18348

5. Оптимизация чёрного ящика (MetaBBO) и суррогатные модели

Meta-Black-Box Optimization with Bi-Space Landscape Analysis and Dual-Control Mechanism for SAEA – ключевая статья, где предложен модуль бипространственного ELA и интеграция TabPFN.
AAAI 2026
GitHub MetaEvo/Awesome-MetaBBO – коллекция статей и кода по мета-оптимизации чёрного ящика.
GitHub
Machine Learning Algorithms for Improving Black Box Optimization Solvers – обзор применения ML для улучшения оптимизаторов.
arXiv:2509.25592
Meta-Black-Box Optimization Can Do Search Guidance for Expensive Constrained Multi-Objective Optimization – расширение MetaBBO на многокритериальный случай.
arXiv:2605.10260
Daily Papers (Hugging Face) – Meta-Black-Box Optimization – лента свежих препринтов по теме.
Hugging Face Papers

6. Новейшие подходы: In-Context Clustering и LLM

In-Context Clustering with Large Language Models – ICC: как LLM кластеризуют данные через механизм внимания, zero-shot и спектральный метод на матрице внимания.
arXiv:2510.08466

7. Дополнительно: обзоры инструментов

Top AutoML frameworks for ML teams in 2026 – обзорная статья от Geniusee, помогающая понять контекст современных AutoML-инструментов.
Geniusee
Siamese Meta-Learning and Algorithm Selection with ‘Algorithm-Performance Personas’ – пообъектный (per-instance) выбор алгоритмов через сиамские сети.
arXiv:2006.12328

ссылка на оригинал статьи https://habr.com/ru/articles/1046942/