Привет, Хабр! Сегодня мы поговорим о реализации базовой версии эмулятора консоли NES на отечественном микроконтроллере К1921ВГ1Т и даже поиграем на нём в игры.
1. Микроконтроллер
К1921ВГ1Т — двухъядерный 32-разрядный микроконтроллер производства АО «НИИЭТ». На борту имеет 2 RISC‑V ядра SCR5. Максимальная частота микроконтроллера — 204 МГц. Имеется 32 Кб L1 кэша команд и инструкций. Микроконтроллер ещё не поступил в розничную продажу, однако, благодаря определённым преференциям, я смог его пощупать.
Из интересной для нас периферии контроллера можно выделить:
-
Работающий на частоте ядра, интерфейс внешней памяти EMC, отображенный в адресное пространство.
-
Контроллер DMA, позволяющий проводить пересылки память/периферия.
-
Семь 16-разрядных портов ввода/вывода.
Всё это упаковано в 208-выводной корпус LQFP.
2. Архитектура эмулятора
2.1 Структура эмулятора
Не углубляясь сильно в теорию построения эмуляторов NES(об этом написано уже немало), хотелось бы отметить только основные структурные единицы эмулятора, которые предстоит реализовать.
Итак, в составе эмулятора NES:
-
Центральный процессор (CPU) — Ricoh 6502. Имеет набор инструкций MOS6502, за исключением отсутствия реализации инструкций для двоично‑десятичного кода.
-
Модульобработки изображения (PPU) — специализированная микросхема для формирования композитного видеосигнала NTSC или PAL.
-
Модуль обработки звука (APU) — специализированная микросхема для обработки и вывода звука.
-
Контроллер — для управления.
-
Картридж — картриджи на NES являлись полноценным модулем, находящимся на системной шине. В состав картриджа могло входить как ПЗУ, так и ОЗУ. В состав картриджа также мог входить маппер — отдельная микросхема, умеющая переключать банки памяти, генерировать прерывания и так далее — это сильно расширяло функциональность консоли.
Я не реализовывал APU и мапперы. Основной целью было не создание очередного эмулятора, а именно запуск его на микроконтроллере.

2.2 Временные циклы
Одной из задач проектирования эмулятора является временное разграничение CPU и PPU. Процессор NES работает на частоте 1.79 МГц, в то время как графика — в 3 раза быстрее. Если бы целевой платформой было бы какое‑то сильно быстродействующее устройство, пришлось бы при помощи аппаратных таймеров вычислять время ожидания между тактами и так далее, но здесь приходит на помощь то, что мы запускаем эмулятор на микроконтроллере, так что хватает простого:
cpu_tick();ppu_tick();ppu_tick();ppu_tick();
У микроконтроллера К1921ВГ1Т, как уже было отмечено выше, в составе имеется 2 ядра. В моём эмуляторе, первое ядро выполняет основной код — циклы работы процессора и подсчёт тактов PPU. Когда наступает время рисования кадра — первое ядро даёт команду второму, и вся тяжелая математика рендера выполняется на нём. Из‑за относительно большого размера кэша, это даёт практически двукратный прирост производительности, так как второе ядро кэширует код рендера и не обращается к системной шине.
3. Процессор
Итак, центральный процессор. Имеет некоторое количество регистров внутри себя, которые легче всего объявить так:
typedef struct{ uint8_t C : 1; uint8_t Z : 1; uint8_t I : 1; uint8_t D : 1; uint8_t B : 1; uint8_t one : 1; uint8_t V : 1; uint8_t N : 1;} PBitTypedef;typedef struct{ uint8_t A; uint8_t X; uint8_t Y; uint16_t PC; uint8_t S; union{ uint8_t P_val; PBitTypedef P_bit; }; int halt_cycle;} CpuStateTypedef;
К данной структуре будем обращаться глобально, например, в обработчике инструкций.
Далее идут инструкции процессора. Чтобы не городить большой switch/case, сделаем таблицу поиска для опкодов. Простыми словами это массив, где лежат указатели на функции обработки опкода именно в том месте по порядку, каков номер опкода. То есть, если при чтении 0×65 процессор должен выполнить инструкцию ADC с адресным режимом Zero Page, то указатель на функцию с реализацией этого опкода будет лежать на 0x65 месте в этом массиве.
uint8_t cmd = cpu_ram[cpu.PC]; Instruction instr = opcode_lut[cmd];RetAddress i_addr = instr.addrmode(); cpu.PC += i_addr.pc_inc;uint16_t wc_val = i_addr.cycles;instr.operate(i_addr.address);wait_cycle += wc_val;
4. Графика
4.1 Отрисовка кадра
Отлично, эмулятор уже умеет исполнять команды, но пока что ничего не рисует. А ещё застревает где‑то в бесконечном цикле, так как ему не приходит NMI(Non‑Maskable Interrupt), которое должно было быть сформировано PPU.
Рендер был написан самый простой из возможных. В отличии от механики работы оригинального рендера, который рисует точку за точкой в реальном времени, моя версия рисует изображение один раз за кадр. Многие продвинутые игры с таким рендером работали бы очень плохо, но запускать продвинутые игры цели и не было.
4.2 Вывод изображения
Что болееинтересно, давайте поговорим про вывод сформированного кадра на дисплей. В качестве дисплея в выбрал 2.4 дюймовый дисплей с параллельным портом. Разрешение данного дисплея составляет 240 на 320, что покрывает оригинальное разрешение NES — 256×240. Данный дисплей выполнен на контроллере ST7781.
В коде проекта, кстати, можно найти инициализационные последовательности для данного дисплея, если вы хотите использовать его в каком‑нибудь своём проекте.
Как было сказано выше, интерфейс EMC отображен на память контроллера, таким образом мы имеем, что при записи значения по определённому адресу, интерфейс EMC выдаст последовательность записи, а при чтении значения — последовательность чтения и запишет/захватит данные на линии данных.
В режиме работы с периферией(это когда адрес чтения/записи не увеличивается, что позволяет указать в качестве указателя на источник данных, например, регистр FIFO), DMA контроллера вполне нормально работает с данным интерфейсом, так что получилось реализовать последовательность Framebuffer → DMA → Display, что позволило без задержек записи, практически параллельно с работой ядер(помним про кэш), записывать в дисплей видеоданные.
5. Управление
Управление сделано максимально топорно. В оригинальной NES, для работы с контроллером отведено 2 адреса — Strobe и Latch. В данной реализации Strobe не используется, а при записи по адресу Latch, в качестве значений кнопок берутся сырые данные с GPIO.
6. Заключение
В конечном результате, удалось добиться порядка 30мс для рисования кадра и столько же для выполнения такта процессора, что даёт нам 30 кадров за секунду, или производительность оригинальной NES усечённую в 2 раза. На видео Вы можете видеть, что игра работает медленнее чем она должна. По моему скромному мнению, дальнейшее увеличение производительности возможно только при более глубокой оптимизации и переход на ассемблер для части функций, а также переосмысления процесса рендеринга.
Предлагаю всем желающим ознакомиться с двумя репозиториями — версией эмулятора, которую я написал для портирования и версией для запуска на контроллере.
Спасибо за прочтение.
ссылка на оригинал статьи https://habr.com/ru/articles/1040122/