Тип доклада: Доклад

Добавляем большую языковую модель (LLM) в приложение на С++ с помощью llama.cpp на реальном примере

  • Доклад на русском языке

Так как про ChatGPT и подобные ему системы рассказали уже много, расскажу про альтернативный вариант. Покажу, как использовать инструменты для обработки текста на основе LLM (large language model) на простых компьютерах, будь то ноутбук, ПК или сервер без GPU. Для этого нам не потребуется подключение к интернету, чтобы использовать онлайн API, так как все будет работать локально. Более того, я покажу, как это сделать на С++, не используя другие языки (или почти не используя). Расскажу о наборе утилит и библиотек llama.cpp и их интеграции в свое приложение для использования современных LLM-моделей.

Что такое квантование и как оно помогает уместить LLM в оперативную память ПК. Как решить проблемы интеграции llama.cpp в приложение. Базовая математическая библиотека GGML и пример использования не только для реализации LLaMA, но и модели BERT. Как решить проблемы токенизации русского языка с использованием библиотеки ICU.

Будем использовать веса русскоязычных моделей LLaMA 2 и BERT и с их помощью научимся обобщать и сравнивать по смыслу сообщения из Telegram-каналов, чтобы формировать новостную картину.

Спикеры

Приглашенные эксперты

Расписание