
Михаил Лукин
Судо
На этом воркшопе участники на практике поработают как с программированием GPU, так и с созданием расширения для популярного фреймворка PyTorch. Напишут собственные CUDA-ядра и используют готовые библиотеки для ускорения нейросетей. В качестве примера мы запустим локальную LLM и измерим ее производительность в реальном тесте.
Начнем с краткой теории GPU, узнаем немного про работу LLM и познакомимся с инфраструктурой PyTorch для создания расширений на С++. После чего реализуем оптимизации для работы модели как расширение для PyTorch.
Участники:
— напишут CUDA-ядра для GeLU и матричного умножения;
— реализуют fusion операций;
— подключат attention из cuDNN.
В конце сравним производительность базовой и оптимизированной версии модели, посчитав количество токенов в секунду.
Требования: уверенное владение C++, CMake и понимание Python.

Судо

YADRO

Postgres Professional