Квантованные модели Llama 3.2: высокая скорость и низкое потребление памяти

Meta представила квантованные модели Llama 3.2, доступные в версиях 1B и 3B, обеспечивающие скорость в 2-4 раза выше и снижение размера на 56%. Оптимизированные для мобильных устройств, они упрощают разработку и поддерживают ARM CPU, демонстрируя 10-кратный рост интереса
Новости 2024 10 25

Представление квантованных моделей Llama 3.2

Компания Meta* представила квантованные модели Llama 3.2, которые порадуют пользователей высокой производительностью и низким потреблением памяти. Эти модели, доступные в версиях 1B и 3B, достаточно компактны для работы на многочисленных мобильных устройствах, что делает их идеальными для активного использования в условиях ограниченных ресурсов.

Благодаря применению новых технологий, Llama 3.2 обеспечивает 2-4-кратное ускорение по сравнению с оригинальными моделями, сохраняя при этом высокий уровень качества и безопасности. Размеры новинок уменьшены в среднем на 56%, а использование памяти снижено на 41% по сравнению с форматом BF16. Это развитие открывает новые горизонты для разработчиков, позволяя создавать эффективные приложения с более быстрой обработкой данных и меньшими затратами на ресурсы.

Техники квантования

В моделях Llama 3.2 используются две ключевые техники квантования, каждая из которых имеет свои особенности и преимущества. Первая техника, известная как тренировка с учетом квантования (Quantization-Aware Training, QAT), включает использование адаптеров LoRA. Этот подход направлен на поддержание высокой точности моделей в условиях низкой точности вычислений. В процессе QAT симулируется влияние квантования на модель во время обучения, что позволяет оптимизировать её производительность.

Вторая техника — SpinQuant — представляет собой передовой метод посттренировочного квантования. Основное преимущество SpinQuant заключается в его портативности и возможности работы без необходимости доступа к исходным датасетам. Это делает его особенно привлекательным для разработчиков, работающих с ограниченными ресурсами или проблемами доступности данных. SpinQuant позволяет пользователям квантовать уже дообученные модели Llama, адаптируя их под различные аппаратные платформы. В результате обе техники обеспечивают значительное снижение размера моделей и использования памяти, сохраняя при этом их качество и функциональность.

Доступность

Квантованные модели Llama 3.2, разработанные Meta*, получили широкую поддержку на платформах Qualcomm и MediaTek с процессорами Arm. Эти инновационные модели были созданы в результате тесного сотрудничества с ведущими игроками в индустрии, что позволило оптимизировать их производительность с использованием библиотек Kleidi AI. Такой подход обеспечивает значительное улучшение скорости и уменьшение потребления ресурсов, что важно для мобильных устройств. Вскоре запланирована интеграция на нейропроцессорах (NPU), что позволит еще больше увеличить эффективность работы этих моделей. Это сотрудничество открывает новые горизонты для разработчиков, стремящихся создать высококачественные и ресурсоэффективные приложения, которые отлично функционируют на современном мобильном оборудовании.

Квантованное обучение

В процессе обучения моделей Llama 3.2 применяется метод квантования, известный как QAT (Quantization-Aware Training). Этот подход позволяет имитировать эффекты квантования уже на этапе обучения, что, в свою очередь, способствует оптимизации работы модели в условиях низкой точности. Важным аспектом является то, что для всех слоев трансформерных блоков используется низкоранговая адаптация LoRA (Low-Rank Adaptation). Эта технология позволяет эффективно сохранять веса и активации в формате BF16, что обеспечивает высокую точность и производительность. Сочетание QAT и LoRA образует новый метод, получивший название QLoRA, который оптимизирует модели для работы в условиях ограниченных ресурсов и на мобильных устройствах, улучшая производительность без значительных потерь в качестве.

Метод SpinQuant

SpinQuant представляет собой передовую методику посттренировочного квантования, ориентированную на решение проблемы недостатка доступа к тренировочным датасетам, что делает её особенно полезной для разработчиков, работающих в условиях ограниченных ресурсов. Используя SpinQuant, можно эффективно переносить модели Llama 3.2 без необходимости в значительных вычислительных мощностях или в доступе к большим объемам данных.

Этот подход обеспечивает высокую портативность, позволяя адаптировать модели для различных аппаратных конфигураций. Посттренировочное квантование, однако, имеет свои ограничения по точности по сравнению с методами, основанными на обучении с учетом квантования (QAT). Тем не менее, SpinQuant остаётся привлекательным вариантом для многих приложений, где ресурсы ограничены, а доступ к данным может быть затруднён. С помощью SpinQuant разработчики могут адаптировать свои модели, обеспечивая эффективную работу на различных устройствах, что открывает новые возможности для использования Llama в реальных сценариях.

Результаты тестирования

Тестирование моделей Llama 3.2 подтвердило значительные улучшения в производительности, что делает их особенно привлекательными для разработчиков, работающих с мобильными устройствами. В процессе тестирования была зафиксирована 2,5-кратная оптимизация латентности декодирования и 4,2-кратное улучшение преполинга в среднем.

Это означает, что модели могут обрабатывать запросы быстрее, что критически важно для приложений в реальном времени, работающих на ограниченных ресурсах. Кроме того, размер моделей уменьшился на впечатляющие 56%, что позволяет сэкономить место на устройствах, а использование памяти сократилось на 41%. Эти изменения были основаны на тестах, проведенных на популярных Android устройствах, в частности, на модели OnePlus 12, и аналогичные результаты были достигнуты на других мобильных платформах, что открывает новые возможности для реализации приложений с использованием Llama 3.2.

Будущее квантованных моделей

Сообщество разработчиков проявляет невероятный интерес к моделям Llama, что выражается в десятикратном увеличении их популярности всего за год. Это свидетельствует о том, что Llama становится не только стандартом ответственных инноваций, но и опорной платформой для открытых и экономически эффективных решений в области искусственного интеллекта. Участие сообщества в дальнейшем развитии Llama обещает расширить её функциональные возможности, позволяя создавать уникальные и мощные приложения, способные воспользоваться всей производительностью мобильных устройств.

Таким образом, будущее Llama выглядит многообещающе, и мы, безусловно, увидим больше новаторских решений, которые станут результатом совместной работы разработчиков, стремящихся оптимизировать свой опыт и обеспечить пользователям лучшие технологии на базе Llama.

Meta*(Запрещенная в РФ)

Поиск