Сбер представляет доступ к нейросетевой модели ruGPT-3.5
Сбер представляет новую нейросетевую модель ruGPT-3.5 для открытого доступа, которая стала основой сервиса GigaChat.
GigaChat - это сервис, который строит креативные ответы на запросы пользователей, используя нейросетевую модель. Для обучения этой модели использовалось огромное количество разнообразных текстов, таких как книги, статьи, программный код и другие. Сначала происходит обучение этой части модели (pretrain) на множестве данных, затем она дообучается на инструкциях, чтобы лучше соответствовать форме ответа. Процесс претрейна занимает основную часть времени и требует больших ресурсов, которые доступны обычно только крупным компаниям.
Эта нейросетевая модель, ruGPT-3.5, теперь доступна на Hugging Face под лицензией MIT, что позволяет использовать её в коммерческих целях. Она является языковой моделью, которая предсказывает следующий токен (слово) на основе предыдущих, и её можно считать большой моделью (Large Language Model, LLM), так как содержит 13 миллиардов обучаемых параметров.
На данный момент существует несколько открытых языковых моделей, но многие из них обучались на ограниченном количестве данных для русского языка, что отрицательно сказывается на качестве ответов. ruGPT-3.5 направлена на русский язык и обладает более высоким качеством обработки данного языка.
Длина контекста этой модели составляет 2048 токенов, что позволяет обрабатывать длинные запросы. Она была обучена в два этапа на большом объеме данных, включая книги, научные статьи, код и документы.
Сбер приглашает сообщество принять участие в развитии русскоязычного NLP, предоставляя доступ к этой мощной языковой модели. Также предоставлен Colab, где можно ознакомиться с примером запуска модели и даже поиграться с квантизованными версиями для удобства.
Сбер надеется, что эта новая модель принесет пользу разработчикам и исследователям в области обработки естественного языка на русском языке.