Успешное обучение русскоязычной модели, превосходящей GPT 3.5 Turbo

Обучена модель ruslandev/tagengo-rus-gpt-4o, превзошедшая GPT 3.5 Turbo по русскоязычным метрикам. Экономия ресурсов и улучшенное многоязычное обучение сделали её оценку 8.01250. Исходные данные доступны на Huggingface

Новости 2024 07 16

Обучение модели, превосходящей GPT-3.5 Turbo на русском языке

Процесс обучения модели, превзошедшей GPT-3.5 Turbo на русском языке, был проведен с использованием конфигурации на двух графических процессорах и инструментов accelerate и deepspeed. Для обучения использовалась виртуальная машина с NVIDIA A100 и специально созданный мультиязычный датасет.

Результаты показали значительное улучшение производительности модели, что позволило занять третье место на mt_bench и получить высокую оценку на ru_mt_bench. Исследование подтвердило, что качество данных оказывает существенное влияние на итоговое качество модели. Было продемонстрировано, что даже небольшой, но качественно подготовленный датасет может привести к значительным результатам.

Данные для обучения

Датасет, использованный для обучения модели, представляет собой совокупность мультиязычных примеров, сгенерированных при помощи GPT-4o. Включая 10 тысяч примеров на русском, английском и китайском языках, он стал ключевым компонентом успешного обучения модели.

Несмотря на меньший объем по сравнению с исходным набором Tagengo, датасет оказался эффективным благодаря высокому качеству данных, собранных с помощью GPT-4o. Это обеспечило впечатляющие результаты на русскоязычной и англоязычной частях MT-Bench и позволило существенно сократить расходы на GPU при обучении. Модель заняла третье место на mt_bench и уверенно победила на ru_mt_bench, что подтверждает важность качества данных при обучении нейронных моделей.

Подготовка скрипта

Для обучения модели использовалась виртуальная машина с NVIDIA H100 через сервис immers.cloud. Для достижения высоких результатов в instruction-following была выбрана модель meta-llama/Meta-Llama-3-8B-Instruct, на основе которой была обучена модель Suzume, продемонстрировавшая высокие показатели на MT-Bench.

Базовая модель Llama-3 8B, особенно в четырехбитной версии, показала значительное улучшение в оценках бенчмарка. Применение новой конфигурации с двумя NVIDIA A100 и инструмента axolotl способствовало значительному улучшению результатов обучения, что подтверждается достижением третьего места в mt_bench.

Конфигурация виртуальной машины

Для обучения модели использовалась виртуальная машина с NVIDIA H100 через сервис immers.cloud. В качестве основы была выбрана модель meta-llama/Meta-Llama-3-8B-Instruct, на которой была обучена Suzume, продемонстрировавшая высокие показатели на MT Bench. Базовая модель Llama-3 8B, особенно в четырехбитной версии, показала значительное улучшение в оценках бенчмарка.

Применение конфигурации с двумя NVIDIA A100 и инструмента axolotl позволило значительно улучшить результаты обучения, что подтверждается достижением третьего места в mt_bench.

Процесс обучения модели на двух графических процессорах NVIDIA A100 с использованием инструмента axolotl привел к значительным улучшениям. Модель была обучена с результативным показателем train loss, равным 0.8, за одну эпоху, что заняло около часа.

Результаты на MT-Bench

На MT-Bench модель заняла третье место, обойдя llama-3-8b-instruct и большинство версий Suzume, за исключением самой мощной. Этот успех был достигнут на англоязычном бенчмарке, что подчеркивает значимость проделанной работы. Успех объясняется использованием высококачественных данных, полученных с помощью GPT-4o, и эффективным распределенным обучением на двух графических процессорах.

Результаты на ru_mt_bench

Модель также показала впечатляющие результаты на ru_mt_bench, получив оценку 8.12, что лишь немного уступает модели Suzume. Этот результат значительно превышает оценку gpt-3.5-turbo, равную 7.94, демонстрируя высокое качество на русскоязычных и мультиязычных задачах. Высокий уровень качественных данных из датасета и умелое использование параллельного обучения на двух графических процессорах стали ключевыми факторами успеха. Эти результаты подтверждают эффективность применяемых методов обучения и подходов.

Выводы

Эксперимент с обучением модели, превосходящей GPT-3.5 Turbo, на русскоязычной части MT-Bench оказался успешным. Используя улучшенную конфигурацию для обучения на двух графических процессорах с помощью accelerate и deepspeed, удалось достичь значительных результатов. Датасет, несмотря на небольшой объем, позволил модели продемонстрировать высокое качество на различных языках.

Из этого эксперимента можно сделать несколько выводов
Эффективное использование качественных данных и оптимизированных методов обучения может значительно сократить время и затраты на обучение модели.
Небольшой размер англоязычной выборки в датасете (всего тысяча примеров) не помешал модели достичь высокой оценки в 8 баллов на англоязычном MT Bench. Это подтверждает, что добавление качественных мультиязычных данных улучшает общее качество модели, а не только ее показатели для конкретного языка. Этот эффект также был отмечен в статье Петера Девина — "Tagengo: A Multilingual Chat Dataset".

Для дальнейшего исследования и воспроизведения результатов, датасет, веса модели и файлы в формате GGUF опубликованы в аккаунте Huggingface. Этот опыт демонстрирует потенциал разработки и обучения продвинутых языковых моделей с использованием доступных технологий и инструментов, открывая новые перспективы в области искусственного интеллекта и обработки естественного языка.

Датасет, веса модели, а также файлы в формате GGUF опубликованы автором в его Huggingface аккаунте