Разработка эмулятора NES на отечественном микроконтроллере К1921ВГ1Т

от автора

Super Mario Bros

Super Mario Bros

Привет, Хабр! Сегодня мы поговорим о реализации базовой версии эмулятора консоли NES на отечественном микроконтроллере К1921ВГ1Т и даже поиграем на нём в игры.

1. Микроконтроллер

К1921ВГ1Т — двухъядерный 32-разрядный микроконтроллер производства АО «НИИЭТ». На борту имеет 2 RISC‑V ядра SCR5. Максимальная частота микроконтроллера — 204 МГц. Имеется 32 Кб L1 кэша команд и инструкций. Микроконтроллер ещё не поступил в розничную продажу, однако, благодаря определённым преференциям, я смог его пощупать.

Из интересной для нас периферии контроллера можно выделить:

  • Работающий на частоте ядра, интерфейс внешней памяти EMC, отображенный в адресное пространство.

  • Контроллер DMA, позволяющий проводить пересылки память/периферия.

  • Семь 16-разрядных портов ввода/вывода.

Всё это упаковано в 208-выводной корпус LQFP.

Назначение выводов в корпусе LQFP-208

Назначение выводов в корпусе LQFP-208

2. Архитектура эмулятора

2.1 Структура эмулятора

Не углубляясь сильно в теорию построения эмуляторов NES(об этом написано уже немало), хотелось бы отметить только основные структурные единицы эмулятора, которые предстоит реализовать.

Итак, в составе эмулятора NES:

  • Центральный процессор (CPU) — Ricoh 6502. Имеет набор инструкций MOS6502, за исключением отсутствия реализации инструкций для двоично‑десятичного кода.

  • Модульобработки изображения (PPU) — специализированная микросхема для формирования композитного видеосигнала NTSC или PAL.

  • Модуль обработки звука (APU) — специализированная микросхема для обработки и вывода звука.

  • Контроллер — для управления.

  • Картридж — картриджи на NES являлись полноценным модулем, находящимся на системной шине. В состав картриджа могло входить как ПЗУ, так и ОЗУ. В состав картриджа также мог входить маппер — отдельная микросхема, умеющая переключать банки памяти, генерировать прерывания и так далее — это сильно расширяло функциональность консоли.

Я не реализовывал APU и мапперы. Основной целью было не создание очередного эмулятора, а именно запуск его на микроконтроллере.

2.2 Временные циклы

Одной из задач проектирования эмулятора является временное разграничение CPU и PPU. Процессор NES работает на частоте 1.79 МГц, в то время как графика — в 3 раза быстрее. Если бы целевой платформой было бы какое‑то сильно быстродействующее устройство, пришлось бы при помощи аппаратных таймеров вычислять время ожидания между тактами и так далее, но здесь приходит на помощь то, что мы запускаем эмулятор на микроконтроллере, так что хватает простого:

cpu_tick();ppu_tick();ppu_tick();ppu_tick();

У микроконтроллера К1921ВГ1Т, как уже было отмечено выше, в составе имеется 2 ядра. В моём эмуляторе, первое ядро выполняет основной код — циклы работы процессора и подсчёт тактов PPU. Когда наступает время рисования кадра — первое ядро даёт команду второму, и вся тяжелая математика рендера выполняется на нём. Из‑за относительно большого размера кэша, это даёт практически двукратный прирост производительности, так как второе ядро кэширует код рендера и не обращается к системной шине.

3. Процессор

Итак, центральный процессор. Имеет некоторое количество регистров внутри себя, которые легче всего объявить так:

typedef struct{      uint8_t C : 1;      uint8_t Z : 1;      uint8_t I : 1;      uint8_t D : 1;      uint8_t B : 1;      uint8_t one : 1;      uint8_t V : 1;      uint8_t N : 1;} PBitTypedef;typedef struct{      uint8_t A;      uint8_t X;       uint8_t Y;       uint16_t PC;       uint8_t S;       union{            uint8_t P_val;            PBitTypedef P_bit;       };       int halt_cycle;} CpuStateTypedef;

К данной структуре будем обращаться глобально, например, в обработчике инструкций.

Далее идут инструкции процессора. Чтобы не городить большой switch/case, сделаем таблицу поиска для опкодов. Простыми словами это массив, где лежат указатели на функции обработки опкода именно в том месте по порядку, каков номер опкода. То есть, если при чтении 0×65 процессор должен выполнить инструкцию ADC с адресным режимом Zero Page, то указатель на функцию с реализацией этого опкода будет лежать на 0x65 месте в этом массиве.

uint8_t cmd = cpu_ram[cpu.PC]; Instruction instr = opcode_lut[cmd];RetAddress  i_addr = instr.addrmode();       cpu.PC += i_addr.pc_inc;uint16_t wc_val = i_addr.cycles;instr.operate(i_addr.address);wait_cycle += wc_val;

4. Графика

4.1 Отрисовка кадра

Отлично, эмулятор уже умеет исполнять команды, но пока что ничего не рисует. А ещё застревает где‑то в бесконечном цикле, так как ему не приходит NMI(Non‑Maskable Interrupt), которое должно было быть сформировано PPU.

Рендер был написан самый простой из возможных. В отличии от механики работы оригинального рендера, который рисует точку за точкой в реальном времени, моя версия рисует изображение один раз за кадр. Многие продвинутые игры с таким рендером работали бы очень плохо, но запускать продвинутые игры цели и не было.

4.2 Вывод изображения

Что болееинтересно, давайте поговорим про вывод сформированного кадра на дисплей. В качестве дисплея в выбрал 2.4 дюймовый дисплей с параллельным портом. Разрешение данного дисплея составляет 240 на 320, что покрывает оригинальное разрешение NES — 256×240. Данный дисплей выполнен на контроллере ST7781.

В коде проекта, кстати, можно найти инициализационные последовательности для данного дисплея, если вы хотите использовать его в каком‑нибудь своём проекте.

Как было сказано выше, интерфейс EMC отображен на память контроллера, таким образом мы имеем, что при записи значения по определённому адресу, интерфейс EMC выдаст последовательность записи, а при чтении значения — последовательность чтения и запишет/захватит данные на линии данных.

В режиме работы с периферией(это когда адрес чтения/записи не увеличивается, что позволяет указать в качестве указателя на источник данных, например, регистр FIFO), DMA контроллера вполне нормально работает с данным интерфейсом, так что получилось реализовать последовательность Framebuffer → DMA → Display, что позволило без задержек записи, практически параллельно с работой ядер(помним про кэш), записывать в дисплей видеоданные.

5. Управление

Управление сделано максимально топорно. В оригинальной NES, для работы с контроллером отведено 2 адреса — Strobe и Latch. В данной реализации Strobe не используется, а при записи по адресу Latch, в качестве значений кнопок берутся сырые данные с GPIO.

6. Заключение

Baloon fight

Baloon fight
Ice climber

Ice climber
Процесс игры

Процесс игры

В конечном результате, удалось добиться порядка 30мс для рисования кадра и столько же для выполнения такта процессора, что даёт нам 30 кадров за секунду, или производительность оригинальной NES усечённую в 2 раза. На видео Вы можете видеть, что игра работает медленнее чем она должна. По моему скромному мнению, дальнейшее увеличение производительности возможно только при более глубокой оптимизации и переход на ассемблер для части функций, а также переосмысления процесса рендеринга.

Предлагаю всем желающим ознакомиться с двумя репозиториями — версией эмулятора, которую я написал для портирования и версией для запуска на контроллере.

Спасибо за прочтение.

ссылка на оригинал статьи https://habr.com/ru/articles/1040122/