Успешное обучение русскоязычной модели, превосходящей GPT 3.5 Turbo

Обучение модели, превосходящей GPT-3.5 Turbo на русском языке
Процесс обучения модели, превзошедшей GPT-3.5 Turbo на русском языке, был проведен с использованием конфигурации на двух графических процессорах и инструментов accelerate и deepspeed. Для обучения использовалась виртуальная машина с NVIDIA A100 и специально созданный мультиязычный датасет.
Результаты показали значительное улучшение производительности модели, что позволило занять третье место на mt_bench и получить высокую оценку на ru_mt_bench. Исследование подтвердило, что качество данных оказывает существенное влияние на итоговое качество модели. Было продемонстрировано, что даже небольшой, но качественно подготовленный датасет может привести к значительным результатам.
Данные для обучения
Датасет, использованный для обучения модели, представляет собой совокупность мультиязычных примеров, сгенерированных при помощи GPT-4o. Включая 10 тысяч примеров на русском, английском и китайском языках, он стал ключевым компонентом успешного обучения модели.
Несмотря на меньший объем по сравнению с исходным набором Tagengo, датасет оказался эффективным благодаря высокому качеству данных, собранных с помощью GPT-4o. Это обеспечило впечатляющие результаты на русскоязычной и англоязычной частях MT-Bench и позволило существенно сократить расходы на GPU при обучении. Модель заняла третье место на mt_bench и уверенно победила на ru_mt_bench, что подтверждает важность качества данных при обучении нейронных моделей.
Подготовка скрипта
Для обучения модели использовалась виртуальная машина с NVIDIA H100 через сервис immers.cloud. Для достижения высоких результатов в instruction-following была выбрана модель meta-llama/Meta-Llama-3-8B-Instruct, на основе которой была обучена модель Suzume, продемонстрировавшая высокие показатели на MT-Bench.
Базовая модель Llama-3 8B, особенно в четырехбитной версии, показала значительное улучшение в оценках бенчмарка. Применение новой конфигурации с двумя NVIDIA A100 и инструмента axolotl способствовало значительному улучшению результатов обучения, что подтверждается достижением третьего места в mt_bench.
Конфигурация виртуальной машины
Для обучения модели использовалась виртуальная машина с NVIDIA H100 через сервис immers.cloud. В качестве основы была выбрана модель meta-llama/Meta-Llama-3-8B-Instruct, на которой была обучена Suzume, продемонстрировавшая высокие показатели на MT Bench. Базовая модель Llama-3 8B, особенно в четырехбитной версии, показала значительное улучшение в оценках бенчмарка.
Применение конфигурации с двумя NVIDIA A100 и инструмента axolotl позволило значительно улучшить результаты обучения, что подтверждается достижением третьего места в mt_bench.
Процесс обучения модели на двух графических процессорах NVIDIA A100 с использованием инструмента axolotl привел к значительным улучшениям. Модель была обучена с результативным показателем train loss, равным 0.8, за одну эпоху, что заняло около часа.
Результаты на MT-Bench
На MT-Bench модель заняла третье место, обойдя llama-3-8b-instruct и большинство версий Suzume, за исключением самой мощной. Этот успех был достигнут на англоязычном бенчмарке, что подчеркивает значимость проделанной работы. Успех объясняется использованием высококачественных данных, полученных с помощью GPT-4o, и эффективным распределенным обучением на двух графических процессорах.
Результаты на ru_mt_bench
Модель также показала впечатляющие результаты на ru_mt_bench, получив оценку 8.12, что лишь немного уступает модели Suzume. Этот результат значительно превышает оценку gpt-3.5-turbo, равную 7.94, демонстрируя высокое качество на русскоязычных и мультиязычных задачах. Высокий уровень качественных данных из датасета и умелое использование параллельного обучения на двух графических процессорах стали ключевыми факторами успеха. Эти результаты подтверждают эффективность применяемых методов обучения и подходов.
Выводы
Эксперимент с обучением модели, превосходящей GPT-3.5 Turbo, на русскоязычной части MT-Bench оказался успешным. Используя улучшенную конфигурацию для обучения на двух графических процессорах с помощью accelerate и deepspeed, удалось достичь значительных результатов. Датасет, несмотря на небольшой объем, позволил модели продемонстрировать высокое качество на различных языках.
- Из этого эксперимента можно сделать несколько выводов
- Эффективное использование качественных данных и оптимизированных методов обучения может значительно сократить время и затраты на обучение модели.
- Небольшой размер англоязычной выборки в датасете (всего тысяча примеров) не помешал модели достичь высокой оценки в 8 баллов на англоязычном MT Bench. Это подтверждает, что добавление качественных мультиязычных данных улучшает общее качество модели, а не только ее показатели для конкретного языка. Этот эффект также был отмечен в статье Петера Девина — "Tagengo: A Multilingual Chat Dataset".
Для дальнейшего исследования и воспроизведения результатов, датасет, веса модели и файлы в формате GGUF опубликованы в аккаунте Huggingface. Этот опыт демонстрирует потенциал разработки и обучения продвинутых языковых моделей с использованием доступных технологий и инструментов, открывая новые перспективы в области искусственного интеллекта и обработки естественного языка.
Датасет, веса модели, а также файлы в формате GGUF опубликованы автором в его Huggingface аккаунте