Nemotron-4 - разработка NVIDIA, конкурентоспособная, но неэффективная при переписывании текста.

Nemotron-4 - успешная разработка NVIDIA с ограничениями. Модель показала конкурентоспособность, но не так эффективна при переписывании текста. Успешно превзошла большинство open source-решений и уравнялась с закрытыми системами
Новости 2024 07 24

Nemotron-4: Обзор разработки NVIDIA

Nemotron-4 – это одна из крупнейших и качественных open source моделей, разработанных компанией NVIDIA. Она представляет собой значимое достижение в области искусственного интеллекта. Разработка Nemotron-4, хотя конкурентоспособная, имеет некоторые ограничения, которые стоит учитывать. Анализ основных аспектов ее устройства, представленный в рассмотренных статьях, позволяет понять особенности подходов, использованных в создании этой модели. Особое внимание уделено процессу обучения и тестирования, который позволил Nemotron-4 достичь хороших результатов на различных бенчмарках, подтверждая тем самым ее эффективность и потенциал в сфере искусственного интеллекта.

Преподготовка данных

На этапе претрейна NVIDIA использовала классические эвристики для дедупликации и отбора лучших текстов, что помогло сформировать высококачественный корпус данных. В основном этот корпус состоит из текстов на английском языке, но также включает материалы на других языках. Это подход позволил компании создать качественную модель Nemotron-4 340B, которая стала успешной разработкой с ограничениями. Современные тренды были проигнорированы в пользу использования squared ReLU и альтернативной параметризации layer-norm. Несмотря на ограниченное количество человеческой разметки в датасетах alignment и SFT, модель успешно прошла обучение и тестирование, показав хорошие результаты на различных бенчмарках. Nemotron-4 превосходит многие другие open source решения и демонстрирует равную конкурентоспособность со многими закрытыми моделями. В сравнении с GPT-4, Nemotron показывает высокую производительность, за исключением задачи переписывания текста, на которой она проявляет слабую эффективность.

Уникальные технические решения

NVIDIA внесла свои уникальные технические решения в разработку Nemotron-4, показав особенное внимание к деталям. Вместо того, чтобы идти по пути общепринятых трендов, компания использовала squared ReLU вместо стандартных функций активации, а также отказалась от гейта. Дополнительно, параметризация layer-norm была реализована нестандартным образом: вместо инициализации единицами применялась инициализация нулями с добавлением единицы на каждом форварде. Эти подходы, хоть и выходят за рамки общепринятых норм, оказались эффективными в создании модели с ограниченными ресурсами и привели к достижению высоких результатов на различных бенчмарках, подтверждая успешность уникальных технических решений в проекте Nemotron-4.

Датасеты и разметка

Для создания датасетов компания NVIDIA использовала ограниченное количество человеческой разметки. Например, датасет для обучения reward-модели содержал всего лишь 10 тысяч пар ответов, размеченных по пяти параметрам: от общей пользы до связности и сложности. Тренировочный процесс SFT также включал 10 тысяч примеров, написанных людьми. В целом, суммарный объем SFT-датасетов достигал порядка миллиона примеров, причем большинство из них были сгенерированы автоматически. Немаловажный факт состоит в том, что даже промты, необходимые для генерации текстов, создавались при помощи модели Mixtral 8x7B.

Процесс обучения

Модель Nemotron-4 прошла через два основных SFT-датасета и два раунда обучения. Изначально она обучалась на Code SFT, используя 800 тысяч примеров. Затем ту же модель дообучали на General SFT, включающем ещё 200 тысяч примеров. Этот подход позволил модели улучшить свои показатели и продемонстрировать высокие результаты на бенчмарках, таких как MMLU. Хотя Nemotron-4 не обладает идеальной эффективностью в задачах переписывания текста, ее успех в других областях делает ее конкурентоспособной на рынке и позволяет ей успешно соперничать с закрытыми решениями. Необходимо отметить, что в сравнении с GPT-4 модель NVIDIA показала высокие результаты, за исключением конкретной области переписывания текста, что подтверждает ее значимость и потенциал в сфере новых технологий и искусственного интеллекта.

Методы оптимизации

После завершения этапа обучения модели на датасетах SFT, произошел переход к оптимизации с использованием различных методов. Сначала был проведен один раунд DPO (Dual Perceptual Optimization), а затем последовали три раунда собственного метода NVIDIA — RPO (Reward-aware Preference Optimization).

Основной принцип работы стандартного DPO заключается в использовании порядка внутри пары. Это означает, что оптимальная политика направлена на максимизацию расстояния между наградой за выбранный ответ и наградой за отклоненный ответ. Однако такой подход может привести к переобучению модели.

В рамках метода RPO, разработанного командой NVIDIA, авторы предложили аппроксимировать непосредственно саму разницу между наградами. Это позволяет более точно оптимизировать модель и избежать нежелательных эффектов, связанных с переобучением. После применения этих методов к модели Nemotron, наблюдались значительные улучшения в ее работе и результативности на бенчмарках, что подтверждает эффективность подхода компании NVIDIA к оптимизации моделей их разработки.

Результаты и тестирования

После проведения всех этапов обучения и тестирования модель Nemotron-4 продемонстрировала впечатляющие результаты на различных бенчмарках, включая MMLU. Интересно отметить, что после завершения раунда DPO модель практически не показывала значительного роста, однако последующие раунды RPO значительно улучшили ее производительность.

Nemotron-4 выделяется среди других open source-решений и успешно конкурирует с закрытыми моделями. Например, в соревновании Arena Hard модель NVIDIA продемонстрировала впечатляющий результат 54,2, превосходя показатели таких моделей, как Claude 3 Sonnet (46,8) и Qwen2 72b (48,1).

В проведенных сравнениях с участием людей Nemotron-4 продемонстрировала практически равную эффективность с GPT-4 по большинству задач, за исключением переписывания текста, где ее успех составил лишь 3,03%. Учитывая ограниченное количество тестовых примеров, можно сделать вывод, что модель NVIDIA представляет собой значимое достижение в области искусственного интеллекта.

Человеческое сравнение

Немотрон-4 - удачная разработка компании NVIDIA, оказавшаяся конкурентоспособной на рынке open source моделей. Однако, при сравнении результатов с GPT-4, Nemotron-4 проявлял себя слабее в задачах переписывания текста. Несмотря на это, модель продемонстрировала высокую эффективность в широком спектре других задач, показав отличные результаты на бенчмарках и превосходя многие другие решения как из открытого, так и закрытого исходного кода. В результате проведенного сравнения Nemotron-4 подтверждает свою значимость и актуальность в области искусственного интеллекта и является перспективной разработкой в сфере глубокого обучения.

Поиск