Microsoft розповіла про перший ШІ-чіп Maia 100

Під час конференції Ignite 2023 Microsoft вперше оголосила про розробку власного чіпа-прискорювача ШІ під назвою Maia. Напередодні на заході Hot Chips 2024 компанія поділилася специфікаціями Maia 100.

Раніше цього року під час конференції розробників Build Microsoft вже розповіла, що Maia 100 – один із найбільших процесорів, створених на 5-нм вузлі TSMC, і він розроблений спеціально для великомасштабних робочих навантажень ШІ, розгорнутих в Azure.

Характеристики Maia 100:

розмір чипа – 820 мм2;
корпус – процес TSMC N5 із технологією інтерпозера COWOS-S;
HBM BW/Cap – 1,8 ТБ/с @ 64 ГБ HBM2E;
Peak Dense Tensor POPS – 6 біт: 3, 9 біт: 1,5, BF16: 0,8;
L1/L2 – 500 МБ;
Backend Network BW – 600 ГБ/с (12X400 ГБ);
Host BW (PCIe) = 32 ГБ/с PCIe Gen5X8;
вимоги до TDP – 700 Вт;
TDP – 500 Вт.

Система Microsoft Maia 100 вертикально інтегрована для оптимізації вартості та продуктивності. Вона також оснащена індивідуальними серверними платами зі спеціально розробленими стійками та програмним стеком для підвищення продуктивності.

Архітектура SoC Maia 100:

високошвидкісний тензорний блок для опрацювання навчання і виведення з підтримкою широкого спектра типів даних. Він побудований як блок 16xRx16;
векторний процесор являє собою слабко зв’язаний суперскалярний рушій, створений з використанням архітектури набору інструкцій (ISA) для підтримки широкого спектра типів даних, включно з FP32 і BF16;
Direct Memory Access (DMA) підтримує різні схеми сегментування тензорів;
апаратні семафори забезпечують асинхронне програмування в системі Maia;
для поліпшення використання даних і енергоефективності великі тимчасові області L1 і L2 управляються програмним забезпеченням;

Maia 100 використовує міжз’єднання на основі Ethernet з користувацьким протоколом типу RoCE для надвисокої пропускної здатності обчислень. Він підтримує пропускну здатність all-gather і scatter-reduced до 4800 Гбіт/с і пропускну здатність all-to-all до 1200 Гбіт/с.

Що стосується програмного забезпечення, то комплект засобів розробки програмного забезпечення Maia (SDK) дає змогу швидко переносити моделі PyTorch і Triton у Maia. Maia SDK включає кілька компонентів для розробників, що дозволяє їм легко розгортати свої моделі в Azure OpenAI Services.

Розробники можуть вибрати одну з двох моделей програмування: використовувати популярну мову програмування з відкритим вихідним кодом Triton для глибоких нейронних мереж (DNN), або API Maia, специфічну для Maia модель програмування, створену для максимальної продуктивності. Крім того, Maia має вбудовану підтримку моделей PyTorch.

Поки невідомо, чи відкриє Microsoft прискорювачі Maia 100 для сторонніх організацій, як це зробила Google зі своїми TPU та Amazon зі своїми чіпами Trainium і Inferentia.