Воркшоп

Ускоряем LLM с помощью своего расширения для PyTorch

На этом воркшопе участники на практике поработают как с программированием GPU, так и с созданием расширения для популярного фреймворка PyTorch. Напишут собственные CUDA-ядра и используют готовые библиотеки для ускорения нейросетей. В качестве примера мы запустим локальную LLM и измерим ее производительность в реальном тесте.

Начнем с краткой теории GPU, узнаем немного про работу LLM и познакомимся с инфраструктурой PyTorch для создания расширений на С++. После чего реализуем оптимизации для работы модели как расширение для PyTorch.

Участники:

— напишут CUDA-ядра для GeLU и матричного умножения;

— реализуют fusion операций;

— подключат attention из cuDNN.

В конце сравним производительность базовой и оптимизированной версии модели, посчитав количество токенов в секунду.

Требования: уверенное владение C++, CMake и понимание Python.

Спикеры

Расписание