Сбер представил GigaChat Lite — быструю и экономичную модель обработки языка

GigaChat Lite — экономичная модель обработки языка на основе МоЕ-архитектуры, обученную на триллионах русскоязычных токенов. Она предлагает высокую скорость генерирования, низкую стоимость инференса и поддержку длинного контекста. Модель теперь доступна через HuggingFace
Новости 2024 12 08

Введение

В начале ноября Сбер представил GigaChat MAX. А теперь раскрыл и некоторые детали. GigaChat Lite – это быстрая и экономическая языковая модель, которая ориентирована на обработку и генерацию текста. Она была обучена на огромном объёме преимущественно русского текста, что позволяет ей демонстрировать высокое качество работы именно в русском языке, но при этом GigaChat Lite сохраняет способность взаимодействовать на нескольких других языках.

Модель доступна на платформе HuggingFace в двух версиях: base и instruct, что позволяет пользователям выбрать наиболее подходящий вариант в зависимости от их нужд и задач. Благодаря своей архитектуре и оптимизации, модель демонстрирует высокую скорость обработки, делая её идеальным инструментом для использования в реальном времени, а также для различных научных и коммерческих проектов.

Архитектура МоЕ

GigaChat-20B-A3B использует инновационную архитектуру "Mixture of Experts" (MoE), которая обеспечивает более эффективное использование ресурсов при обработке запросов. В отличие от традиционных моделей, которые активируют все свои параметры для каждой задачи, MoE позволяет задействовать лишь те блоки знаний, которые действительно необходимы в конкретный момент.

Это существенно снижает затраты на инференс, при этом сохраняя высокую производительность и точность ответов. Однако важной задачей является контроль за работой экспертов, чтобы избежать ситуации, когда некоторые эксперты начинают доминировать, становясь "звездами" в системе. В таком случае другие эксперты могут оказаться неиспользуемыми, что негативно скажется на общей эффективности модели. Путём тщательного управления и оптимизации можно добиться сбалансированной работы всех экспертов, что позволит использовать преимущества архитектуры MoE в полном объёме.

Производительность и метрики

Во время тестирования проверялась производительность в различных бенчмарках, чтобы оценить способности в сравнении с другими известными моделями, такими как LLaMa и Gemma-2-9B. Результаты показали, что GigaChat демонстрирует выдающиеся результаты при выполнении задач, особенно в контексте русскоязычных данных, где он использует обширный объем тренировочной информации. Эта модель особенно эффективна в задачах, связанных с математикой и общими знаниями, что указывает на её высокое качество выполнения заданий. Например, на тестах MMLU GigaChat превзошел конкурентов, подтвердив свою способность успешно справляться с многообразием задач, характерных для российского контекста. Важно отметить, что благодаря оптимизации алгоритмов и ранжирования данных, GigaChat не только обеспечивает высокую точность, но и остается доступным по стоимости инференса, что делает его привлекательным выбором для пользователей.

Управляемая генерация

GigaChat внедряет механизм концентрации, который открывает новые горизонты в управляемой генерации текста. Этот подход позволяет направлять работу модели на конкретные темы без необходимости в дополнительном обучении. Было продемонстрировано, как с помощью концентрации модель может адаптироваться к различным областям знаний, проявляя значительную тематическую специализацию. Например, проведены эксперименты, в которых модель концентрировалась на таких темах, как еда или технологии. Результаты показали, что, используя соответствующий набор экспертов, можно существенно изменить направление генерации, получая ответы, глубже погружающиеся в выбранную область. Это подчеркивает уникальную способность GigaChat к динамической настройке, обеспечивая более точное и релевантное взаимодействие в соответствии с контекстом запроса.

Заключение

GigaChat-20B-A3B представляет собой значительное событие в разработке языковых моделей в России. Это первая открытая MoE-модель, которая демонстрирует не только впечатляющую скорость инференса, но и высокое качество работы, соответствующее современным требованиям. Благодаря своей архитектуре, GigaChat-20B-A3B показывает отличные метрики, что делает её идеальным выбором как для академических исследований, так и для коммерческого использования в различных сферах. Команда разработки активно планирует дальнейшее совершенствование этой модели, что включает в себя улучшения в области нейронных сетей и генеративных технологий.

Поиск