Создаем ИИ-модель для генерации музыки на базе Lakh MIDI Dataset

Введение

Генерация музыки алгоритмами — давно рабочий инструмент индустрии. Этот сегмент прошел путь от простых цепей Маркова, которые предсказывали вероятности перехода одной ноты в другую, до современных трансформеров, способных выдавать многоканальные аудиозаписи.

Для разработчика генерация музыки — это отличная практическая задача. Работать с сырым аудио (waveform) вычислительно тяжело и требует сложных архитектур, но при использовании формата MIDI задача сводится к обработке последовательностей. Это делает процесс похожим на работу с текстом в NLP: мы берем дискретные токены (ноты, аккорды, паузы), находим между ними связи и предсказываем следующие шаги. Главный плюс — результат обучения модели можно в буквальном смысле услышать.

Цель этой статьи — построить с нуля простую и понятную рекуррентную нейросеть на базе архитектуры LSTM. Мы разберем полный цикл: загрузим сырые данные, подготовим их для обучения, напишем нейросеть, которая научится улавливать закономерности в мелодиях, и заставим ее сгенерировать новую нотную последовательность.

Наш стек технологий:

Python — основной язык разработки.
PyTorch — фреймворк для построения и обучения рекуррентной сети (подходы аналогичны для TensorFlow/Keras).
music21 — мощная библиотека для парсинга MIDI-файлов, извлечения нот и обратной сборки сгенерированного массива в аудиофайл (в качестве более легковесной альтернативы упомянем pretty_midi).
Инструменты визуализации — для построения графиков (Piano Roll), чтобы наглядно видеть структуру как исходного датасета, так и сгенерированной музыки.

2. Разбор данных: Что такое Lakh MIDI Dataset (Clean)?

В качестве источника данных мы используем Lakh MIDI Dataset. Оригинальный архив содержит сотни тысяч треков, но работать с ним напрямую неудобно: в нем много дубликатов, битых файлов и шума. Версия «Clean» решает эту проблему. Это очищенный датасет, включающий тысячи выверенных и структурированных файлов различных жанров. Использование чистых данных позволяет не тратить часы на фильтрацию и сразу перейти к разработке модели.

Если вы никогда не работали с музыкальными данными, важно понимать базовый принцип: MIDI — это не аудиоформат вроде MP3 или WAV. В нем нет звуковых волн. MIDI — это протокол инструкций. По сути, это массив цифровых событий, которые говорят компьютеру:

Какую ноту нажать (Pitch).
С какой силой ударить по клавише (Velocity).
Как долго удерживать звук (Duration).
Какой инструмент использовать.

Для машинного обучения это идеальный сценарий. Вместо тяжелого массива амплитуд звуковой волны мы получаем дискретную последовательность событий. Это позволяет применять к музыке те же подходы, что используются в обработке естественного языка (NLP) — мы просто заменяем слова на ноты.

Подготовка окружения

Скачать датасет можно напрямую с Kaggle: Lakh MIDI Clean Dataset.

Для работы потребуется стандартный стек ML (мы будем использовать PyTorch) и библиотека music21 от MIT, которая отлично справляется с парсингом MIDI-структур.

Устанавливаем необходимые пакеты:

pip install torch torchvision torchaudio music21 numpy

Импортируем библиотеки, которые понадобятся нам для загрузки и обработки файлов:

import osimport globimport numpy as npimport torchfrom music21 import converter, instrument, note, chord

3. Шаг 1: Предобработка данных (Data Preprocessing)

Нейросети не умеют слушать музыку, они умеют умножать матрицы. Поэтому наша главная задача на этапе предобработки — превратить нотные партитуры в плоский массив чисел (токенов).

Мы намеренно упростим задачу для нашей первой модели:

Выкинем полифонию инструментов: Полный MIDI-файл содержит барабаны, бас, гитары и вокал. Если скормить эту кашу простой LSTM, на выходе получится невнятный шум. Мы сфокусируемся только на одной доминирующей дорожке (чаще всего это пианино).
Игнорируем длительности нот: Пока нас интересует только высота звука (pitch). Обучить модель ритму (как долго держать паузу или ноту) сложнее, поэтому на первом этапе мы генерируем просто поток нот одинаковой длительности.

Чтение и извлечение нот

Мы будем использовать music21 для парсинга файла. Библиотека прочитает MIDI, разобьет его на партии разных инструментов, и мы вытащим оттуда все ноты и аккорды.

Вот как выглядит функция извлечения:

from music21 import converter, instrument, note, chorddef extract_notes_from_midi(file_path):    notes = []    # Загружаем MIDI-файл    midi = converter.parse(file_path)        # Пытаемся разделить файл на отдельные инструменты    parts = instrument.partitionByInstrument(midi)        if parts: # Если инструменты найдены        # Для простоты берем первую попавшуюся дорожку         # (в датасетах вроде Lakh это часто фортепиано или ведущий синт)        notes_to_parse = parts.parts[0].recurse()    else: # Если структура плоская (нет явного разделения)        notes_to_parse = midi.flat.notes            # Проходимся по всем элементам дорожки    for element in notes_to_parse:        # Если это одиночная нота        if isinstance(element, note.Note):            notes.append(str(element.pitch)) # Сохраняем как 'C4', 'D#5' и т.д.                    # Если это аккорд (несколько нот одновременно)        elif isinstance(element, chord.Chord):            # Конвертируем аккорд в строку чисел, разделенных точкой (например, '4.7.11')            # normalOrder возвращает базовые классы высоты тона (от 0 до 11)            notes.append('.'.join(str(n) for n in element.normalOrder))                return notes# Пример использования:raw_notes = extract_notes_from_midi("Caught Up In You.mid")print(f"Извлечено нот и аккордов: {len(raw_notes)}")print(f"Пример данных: {raw_notes[:10]}")

В результате переменная raw_notes будет содержать одномерный список строк: ['G4', '4.7.11', 'A4', 'B4', ...]. Это и есть наш “текст”, на котором будет учиться модель.

Создание словаря (Vocabulary)

Машинное обучение не умеет работать со строками вроде C4. Нам нужно перевести каждый уникальный элемент (токен) в целое число (ID). Для этого мы собираем все уникальные ноты и аккорды из наших данных и составляем словарь маппинга.

Это работает точно так же, как составление словаря слов в NLP:

# Собираем уникальные токены и сортируем ихpitchnames = sorted(set(item for item in raw_notes))vocab_length = len(pitchnames)print(f"Размер словаря (уникальных звуков): {vocab_length}")# Создаем два словаря:# 1. Для кодирования: Нота -> Число (нужно для обучения сети)note_to_int = {note: number for number, note in enumerate(pitchnames)}# 2. Для декодирования: Число -> Нота (понадобится при генерации финального MIDI)int_to_note = {number: note for number, note in enumerate(pitchnames)}print(f"ID для ноты 'E4': {note_to_int.get('E4')}")

Теперь, прогнав весь наш массив raw_notes через словарь note_to_int, мы получим чистый массив интов: [54, 12, 56, 58, ...]. Именно эти данные мы будем “скармливать” нейросети.

4. Шаг 2: Формирование датасета для обучения (Feature Engineering)

Сырой массив нотных ID сам по себе бесполезен для нейросети. LSTM должна учиться на примерах: «если я вижу последовательность А, то следующей нотой, скорее всего, будет Б». Это называется обучением с учителем (Supervised Learning).

Чтобы превратить нашу одномерную цепочку нот в набор пар “вопрос-ответ” ( $X \rightarrow Y$ ), мы используем концепцию скользящего окна (Sliding Window).

Концепция скользящего окна

Представьте рамку (окно), которая вмещает ровно 100 нот. Мы накладываем эту рамку на начало нашего трека.

То, что попало в рамку (ноты с 1-й по 100-ю) — это наш входной вектор .
Сразу следующая за рамкой нота (101-я) — это наш целевой ответ (таргет) .

Затем мы сдвигаем рамку на одну позицию вправо. Теперь — это ноты со 2-й по 101-ю, а — 102-я нота. И так до конца трека. Размер окна (sequence length) — важный гиперпараметр. Если взять 10 нот, модель будет писать случайный бред, не помня начала такта. Если взять 500 — она будет слишком долго учиться и, возможно, переобучится. Окно в 100 нот — это золотой стандарт для музыкальных генераторов.

Код: Создание X и Y, векторизация

sequence_length = 100network_input = []network_output = []# Переводим массив строковых нот в массив чисел, используя наш словарьint_notes = [note_to_int[note] for note in raw_notes]# Создаем пары X и Y с помощью скользящего окнаfor i in range(0, len(int_notes) - sequence_length, 1):    sequence_in = int_notes[i:i + sequence_length]    sequence_out = int_notes[i + sequence_length]        network_input.append(sequence_in)    network_output.append(sequence_out)n_patterns = len(network_input)print(f"Всего создано паттернов (примеров для обучения): {n_patterns}")

Нормализация и создание DataLoader (PyTorch)

Нейросети работают лучше, когда данные нормализованы (приведены к диапазону от 0 до 1) и подаются батчами (пакетами).

Для входа () мы изменим форму массива так, чтобы она подходила для LSTM (размерность [количество примеров, длина последовательности, 1]), а затем разделим все значения на размер нашего словаря.

Для выхода () мы оставим просто классы (индексы), так как в PyTorch функция потерь CrossEntropyLoss сама сделает нужные преобразования внутри.

import torchfrom torch.utils.data import TensorDataset, DataLoader# Меняем форму X для PyTorch LSTM (batch_size, sequence_length, features)# У нас пока 1 фича - это сама высота нотыnetwork_input = np.reshape(network_input, (n_patterns, sequence_length, 1))# Нормализуем входные данныеnetwork_input = network_input / float(vocab_length)# Переводим numpy массивы в PyTorch тензорыX_tensor = torch.tensor(network_input, dtype=torch.float32)y_tensor = torch.tensor(network_output, dtype=torch.long) # long нужен для классов# Создаем Dataset и DataLoaderbatch_size = 64dataset = TensorDataset(X_tensor, y_tensor)# DataLoader разобьет данные на батчи и будет перемешивать их каждую эпохуdataloader = DataLoader(dataset, batch_size=batch_size, shuffle=True)print(f"Размер тензора X: {X_tensor.shape}")

На выходе мы получаем генератор батчей dataloader, который полностью готов к тому, чтобы “кормить” нашу нейросеть.

5. Шаг 3: Архитектура модели (Простая LSTM)

Почему мы не используем обычные полносвязные сети (Dense/Linear)? Классическая сеть видит входные данные как статический слепок. Если подать ей 100 нот, она обработает их без учета временной зависимости. В музыке, как и в тексте, порядок решает всё.

Рекуррентные нейронные сети (RNN) умеют передавать скрытое состояние от такта к такту. Однако базовые RNN имеют серьезный недостаток — затухание градиента. К концу длинной последовательности они «забывают», с чего начиналась фраза. LSTM (Long Short-Term Memory) решает эту проблему за счет системы вентилей (gates), которые жестко контролируют, какую информацию из прошлых шагов нужно сохранить, а какую — стереть. Это позволяет модели удерживать долгосрочный контекст на всем окне из 100 нот.

Схема сети

Архитектура нашей модели состоит из трех логических блоков:

Входной слой (Embedding): Подавать на вход одно нормализованное число или огромный разреженный One-Hot вектор — не лучшая практика. Слой Embedding принимает целые числа (ID нот) и проецирует каждый токен в плотное векторное пространство. В процессе обучения сеть сама поймет, что аккорд Cmaj и нота C концептуально ближе друг к другу, чем C и F#.
Скрытые слои (LSTM): Мы используем 2 слоя LSTM. Этого достаточно для извлечения паттернов из одного инструмента. Между слоями добавляется Dropout — случайное отключение части нейронов. Это агрессивная, но необходимая мера регуляризации, чтобы модель не зазубрила датасет наизусть, а научилась генерировать новые мелодии.
Выходной слой (Linear): Обычный полносвязный слой, количество нейронов в котором равно размеру нашего словаря (vocab_length). Он возвращает «сырые» оценки (логиты) вероятности для каждой возможной следующей ноты.

Важный технический нюанс: Мы не прописываем функцию активации Softmax в самом классе модели. В PyTorch функция потерь CrossEntropyLoss математически стабильнее работает с сырыми логитами и применяет Softmax под капотом.

Код инициализации модели

Небольшая корректировка относительно предыдущего шага: поскольку мы используем слой Embedding, нормализация данных (/ float(vocab_length)) больше не нужна. На вход Embedding подаются тензоры с оригинальными целочисленными ID.

import torch.nn as nnclass MusicGeneratorLSTM(nn.Module):    def __init__(self, vocab_length, embed_dim=100, hidden_size=256, num_layers=2, dropout_rate=0.3):        super(MusicGeneratorLSTM, self).__init__()                # 1. Embedding слой: превращает целочисленный ID ноты в вектор        self.embedding = nn.Embedding(num_embeddings=vocab_length, embedding_dim=embed_dim)                # 2. LSTM слои (batch_first=True значит, что размерность батча идет первой)        self.lstm = nn.LSTM(            input_size=embed_dim,            hidden_size=hidden_size,            num_layers=num_layers,            dropout=dropout_rate,            batch_first=True        )                # Dropout перед финальным слоем        self.dropout = nn.Dropout(dropout_rate)                # 3. Выходной полносвязный слой        self.dense = nn.Linear(hidden_size, vocab_length)            def forward(self, x):        # x на входе: (batch_size, sequence_length)        x = self.embedding(x)                # После embedding: (batch_size, sequence_length, embed_dim)        lstm_out, (hidden, cell) = self.lstm(x)                # Нам нужен выход только с последнего временного шага        # (так как мы предсказываем 101-ю ноту на основе 100 предыдущих)        final_step_out = lstm_out[:, -1, :]                final_step_out = self.dropout(final_step_out)        output = self.dense(final_step_out)                # output на выходе: (batch_size, vocab_length)        return output# Инициализируем модельmodel = MusicGeneratorLSTM(vocab_length=vocab_length)print(model)

6. Шаг 4: Процесс обучения (Training Loop)

Данные подготовлены, архитектура собрана. Теперь нужно запустить цикл обучения, в котором модель будет смотреть на окна из 100 нот, пытаться угадать 101-ю, получать «штраф» за ошибку и корректировать свои веса.

Функция потерь и оптимизатор

Генерация следующей ноты в нашем случае — это классическая задача многоклассовой классификации. У нас есть словарь (допустим, из 100 уникальных нот), и модель должна выбрать один правильный класс (одну ноту).

Именно поэтому мы используем CrossEntropyLoss. Эта функция потерь отлично работает с «сырыми» логитами, которые выдает наш последний полносвязный слой. В качестве оптимизатора берем классический Adam с дефолтным learning rate — он сходится быстрее и стабильнее обычного SGD, что критично для рекуррентных сетей.

Метрики: как понять, что модель учится?

В задачах генерации музыки классическая метрика Accuracy (точность) не всегда показательна. Если в оригинальном треке следующей нотой шла C4, а модель предсказала E4 (что является терцией и отлично звучит в аккорде), с точки зрения Accuracy модель ошиблась, хотя музыкально она выдала валидный результат.

Поэтому главный показатель для нас — это Loss (ошибка). В процессе обучения он должен плавно, но уверенно падать. Если Loss застрял на одном месте в первых же эпохах — скорее всего, проблема в препроцессинге (например, забыли нормализовать данные или напутали с размерностями тензоров).

Код: Цикл обучения и логирование

Обучение нейросети, особенно рекуррентной, занимает время. Вы можете прервать процесс случайно, или может отключиться свет (или отвалиться сессия в Google Colab). Поэтому критически важно сохранять чекпоинты (веса модели) после эпох, где ошибка стала меньше, чем раньше.

Вот готовый скрипт тренировочного цикла:

# Переносим модель на GPU, если он доступенdevice = torch.device("cuda" if torch.cuda.is_available() else "cpu")model.to(device)# Инициализация оптимизатора и функции потерьoptimizer = torch.optim.Adam(model.parameters(), lr=0.001)criterion = nn.CrossEntropyLoss()epochs = 50 best_loss = float('inf') # Стартовое значение для сравненияprint(f"Начинаем обучение на {device}...")model.train() # Переводим модель в режим обучения (включаем Dropout)for epoch in range(epochs):    epoch_loss = 0        for batch_x, batch_y in dataloader:        # Переносим батчи на видеокарту        batch_x, batch_y = batch_x.to(device), batch_y.to(device)                # 1. Очищаем градиенты с прошлого шага        optimizer.zero_grad()                # 2. Прямой проход (Forward pass)        outputs = model(batch_x)                # 3. Вычисление ошибки        loss = criterion(outputs, batch_y)                # 4. Обратный проход (Backward pass)        loss.backward()                # 5. Шаг оптимизатора (обновление весов)        optimizer.step()                epoch_loss += loss.item()            # Считаем среднюю ошибку за эпоху    avg_loss = epoch_loss / len(dataloader)    print(f"Эпоха {epoch+1}/{epochs} | Loss: {avg_loss:.4f}")        # Сохраняем веса, если модель стала лучше    if avg_loss < best_loss:        best_loss = avg_loss        torch.save(model.state_dict(), "best_music_model.pth")        print("  --> Сохранен новый чекпоинт (best_music_model.pth)")

7. Шаг 5: Генерация музыки (Inference & Sampling)

Модель обучена, веса сохранены. Теперь нужно заставить её написать новую мелодию.

Процесс генерации в рекуррентных сетях работает по принципу авторегрессии: мы даем сети начальный контекст, она предсказывает одну ноту, мы добавляем эту ноту в конец контекста, отрезаем первую (чтобы длина окна осталась равна 100) и повторяем процесс.

Процесс “Seed” (Затравка)

LSTM не умеет писать музыку из пустоты. Чтобы сгенерировать 101-ю ноту, ей нужны предыдущие 100. Поэтому мы берем случайную последовательность из наших исходных данных network_input и используем ее как стартовый вектор (seed).

Стратегии сэмплинга и Temperature

Это самый важный нюанс в генеративных моделях. Наш финальный слой выдает вероятности для каждой ноты из словаря. Логичный шаг — просто взять ноту с максимальной вероятностью (сделать argmax).

На практике это приведет к катастрофе. Если всегда брать argmax, музыка получится детерминированной. Сеть быстро найдет самый “безопасный” паттерн и зациклится, выдавая бесконечное C-D-E-C-D-E.

Вместо этого мы используем вероятностный сэмплинг: если у ноты вероятность 80%, мы выберем ее в 8 из 10 случаев, но оставим 20% шанса на другие ноты. Чтобы управлять этой случайностью, вводится параметр Temperature (). Перед применением Softmax мы делим сырые логиты () на температуру:

$p_i = \frac{\exp(z_i / T)}{\sum_j \exp(z_j / T)}$

(например, 0.5): Разница между вероятностями усиливается. Модель становится консервативной, делает меньше ошибок, но звучит скучно.
: Базовое распределение, выученное моделью.
(например, 1.2): Распределение сглаживается. У маловероятных нот появляется шанс. Музыка становится более креативной, джазовой, а при сильном завышении — превращается в хаотичный авангард.

Код: Генерация и конвертация в MIDI

import randommodel.load_state_dict(torch.load("best_music_model.pth"))model.eval() # Отключаем Dropout для генерации# Берем случайную затравку из датасетаstart_index = random.randint(0, len(network_input) - 1)pattern = network_input[start_index].tolist()generated_sequence = []num_notes_to_generate = 200temperature = 1.0 # Попробуйте менять от 0.7 до 1.2print("Генерация началась...")with torch.no_grad():    for note_index in range(num_notes_to_generate):        # Подготавливаем тензор (добавляем измерение батча)        prediction_input = torch.tensor(pattern, dtype=torch.long).unsqueeze(0).to(device)                # Получаем сырые логиты        logits = model(prediction_input)                # Применяем температуру        logits = logits / temperature                # Превращаем в вероятности и делаем сэмплинг        probs = torch.softmax(logits, dim=-1)                # Выбираем один индекс на основе вероятностей (вместо argmax)        predicted_idx = torch.multinomial(probs[0], 1).item()                generated_sequence.append(predicted_idx)                # Сдвигаем окно: добавляем новую ноту, удаляем первую        pattern.append([predicted_idx])        pattern = pattern[1:]print("Генерация завершена. Конвертация в MIDI...")

Теперь у нас есть массив чисел generated_sequence. Нужно перевести его обратно в строковые ноты, обернуть в объекты music21 и сохранить в файл. Важно добавлять сдвиг по времени (offset), иначе все сгенерированные ноты зазвучат в одну секунду как один огромный диссонирующий аккорд.

from music21 import streamoutput_notes = []offset = 0for pattern in generated_sequence:    # Декодируем индекс обратно в строку (например, 'C4' или '4.7.11')    pattern_str = int_to_note[pattern]        # Если это аккорд (строка с точками)    if ('.' in pattern_str) or pattern_str.isdigit():        notes_in_chord = pattern_str.split('.')        notes = []        for current_note in notes_in_chord:            new_note = note.Note(int(current_note))            new_note.storedInstrument = instrument.Piano()            notes.append(new_note)        new_chord = chord.Chord(notes)        new_chord.offset = offset        output_notes.append(new_chord)            # Если это одиночная нота    else:        new_note = note.Note(pattern_str)        new_note.offset = offset        new_note.storedInstrument = instrument.Piano()        output_notes.append(new_note)            # Увеличиваем сдвиг на половину такта     # (можно рандомизировать для более живого ритма)    offset += 0.5# Собираем все в MIDI-поток и сохраняемmidi_stream = stream.Stream(output_notes)midi_stream.write('midi', fp='ai_generated_track.mid')print("Файл ai_generated_track.mid успешно сохранен!")

8. Результаты: Анализ и визуализация

После того как скрипт отработает, в папке появится файл ai_generated_track.mid. Откройте его в любом MIDI-плеере или DAW (например, FL Studio, Ableton или Logic).

ZAPLAVS · ai_generated_track

Что у модели получилось хорошо?

Даже такая простая архитектура, обученная на небольшом датасете, способна удивить:

Тональность: Сеть быстро понимает концепцию лада. Если вы обучали её на классике, сгенерированные ноты будут лежать в пределах одной гаммы, избегая откровенных диссонансов.
Локальные паттерны: Модель успешно копирует арпеджио, короткие переходы и базовые аккорды (мажор/минор).

Где видны проблемы?

Отсутствие долгосрочной структуры: У модели нет понимания музыкальной формы. Она не знает, что такое «куплет», «припев» или «кульминация». Музыка будет звучать как бесконечная импровизация (или “блуждающая” мелодия).
Зацикливание: Если выставить слишком низкую температуру сэмплинга, ИИ может найти удачный паттерн из трех нот и повторять его до конца трека.
Отсутствие ритма: Поскольку на этапе предобработки мы отбросили длительности, все ноты играются ровным потоком (восьмыми или четвертными). Это звучит механически.

Визуализация (Piano Roll)

Слушать — это хорошо, но графики дают больше понимания. Так как вы пишете код в VS Code, можно использовать стандартный matplotlib, чтобы вывести график прямо в интерактивном окне или сохранить его как картинку.

Для визуализации MIDI лучше всего подходит библиотека pretty_midi.

Установим пакеты:

pip install pretty_midi matplotlib

И добавим небольшой скрипт для отрисовки Piano Roll (графика, где по оси X — время, а по оси Y — высота ноты):

import pretty_midiimport matplotlib.pyplot as pltdef plot_piano_roll(midi_file):    # Загружаем сгенерированный файл    midi_data = pretty_midi.PrettyMIDI(midi_file)        # Извлекаем Piano Roll (массив: 128 нот x время)    # fs=10 означает частоту дискретизации 10 раз в секунду    piano_roll = midi_data.get_piano_roll(fs=10)        plt.figure(figsize=(12, 6))        # Рисуем график    # Ограничиваем ось Y (от 20 до 100), чтобы убрать пустые верхние и нижние октавы    plt.imshow(piano_roll[20:100, :], aspect='auto', origin='lower', cmap='magma')        plt.title(f'Piano Roll: {midi_file}')    plt.ylabel('Высота ноты (MIDI Pitch - 20)')    plt.xlabel('Время (фреймы)')    plt.colorbar(label='Velocity (Сила нажатия)')        # В VS Code это откроет отдельное окно с интерактивным графиком    plt.show() plot_piano_roll('ai_generated_track.mid')

Этот график сразу покажет, насколько разнообразна мелодия, есть ли в ней паттерны и не зациклилась ли сеть на одной ноте.

9. Заключение и направления для улучшения

Мы прошли полный путь от сырых файлов Lakh MIDI до готовой модели, которая способна генерировать новые мелодии. Всего за пару сотен строк кода мы построили систему, которая переводит музыку в математику, находит в ней закономерности и возвращает обратно в виде нот.

Это отличный рабочий прототип, но его можно и нужно развивать.

Как сделать модель круче (Next Steps):

Учет времени и пауз (Time Shift Events): Вместо того чтобы игнорировать ритм, можно добавить в наш словарь специальные токены — Wait_10ms, Wait_100ms или Note_Off. Тогда сеть научится управлять длительностью звука и делать паузы, что мгновенно оживит трек.
Полифония: Обучить модель играть двумя руками на пианино (бас + мелодия). Для этого придется усложнить препроцессинг и использовать многомерные массивы на выходе.
Переход к Transformer: LSTM — это классика, но сегодня в генерации последовательностей доминируют Трансформеры (например, архитектура Music Transformer от Google). Благодаря механизму Self-Attention (внимания), они способны удерживать структуру трека на протяжении минут, «помня», с чего начиналась песня, и логично возвращаясь к главной теме в конце.

Анонсы новых статей, полезные материалы, а так же если в процессе у вас возникнут сложности, обсудить их или задать вопрос по этой статье можно в моём Telegram-сообществе. Смело заходите, если что-то пойдет не так, — постараемся разобраться вместе.

Экспериментируйте с гиперпараметрами, скармливайте модели разную музыку — от Баха до синтвейва, — и наблюдайте за тем, как меняется ее «творческий» почерк. Удачи в разработке!

ссылка на оригинал статьи https://habr.com/ru/articles/1037170/