Исследование открытого кода в ИИ в России
Исследование открытого кода в ИИ в России
В России исследование открытого кода в области искусственного интеллекта представляет собой актуальную проблему, так как многие разработчики и проекты остаются неизвестными друг другу. Несмотря на наличие активных сообществ и инициатив в университетах, таких как ИТМО, МФТИ и ВШЭ, существующие репозитории часто не получают должного освещения и поддержки. Это приводит к изоляции и создает барьеры для интеграции и сотрудничества между различными командами. Кроме того, отсутствие единой метрики для оценки open source проектов усугубляет ситуацию, так как порой трудно оценить качество или потенциал тех или иных решений. В то же время открытые данные и код могут значительно увеличить возможность воспроизводимости исследований, что в свою очередь содействует более широкому использованию идей и методов. Актуальность данной темы подчеркивается потребностью в создании единой платформы для обмена знаниями и проектами среди исследователей, что позволит избежать дублирования усилий и оптимизировать процесс разработки.
Введение в открытый научный код
Открытый научный код становится неотъемлемой частью современных исследований, предоставляя возможность широкой аудитории взаимодействовать с научными данными и результатами. В отличие от традиционного подхода, где результаты исследований публикуются в виде статей и могут оставаться недоступными из-за закрытых датасетов и недостаточной документации, открытый код создает платформу для повторного использования, воспроизведения результатов и активного сотрудничества между учеными. Наша команда из NSS Lab ИТМО активно развивает это направление, организуя митапы и создавая репозитории с научными инструментами.
Текущая ситуация в России показывает, что хотя интерес к открытому коду растет, многие разработчики остаются изолированными и не знают о существующих коллегах и проектах. Это затрудняет продвижение идей и интеграцию разных инициатив. Мы стремимся создать более связное сообщество открытого кода в научной сфере, чтобы улучшить доступ к ресурсам и обмен знаниями, тем самым способствуя развитию научного опенсорса в стране. В данном контексте наша работа направлена на обнаружение, документирование и распространение информации о существующих инициативах и репозиториях, что было одной из главных задач нашего исследования.
Проблемы традиционного подхода
В современных исследованиях в области машинного обучения открытые данные и код становятся необходимыми элементами для полноценного верифицирования результатов. Традиционный подход, при котором достаточно лишь публикации научной статьи, не позволяет другим ученым воспроизвести эксперименты, так как часто отсутствует доступ к исходным данным и алгоритмам. Это приводит к тому, что работа теряет свою актуальность и ценность в научном сообществе. Ученые могут столкнуться с проблемой, когда даже при наличии качественной статьи, без accompanying data и well-documented code другие исследователи не смогут проверить и подтвердить полученные результаты, что негативно сказывается на обмене знаниями и сотрудничестве. Открытые данные и код не только способствуют верификации, но и повышают вероятность цитирования работы, так как дают возможность другим исследователям использовать предложенные методы и идеи в своих проектах. Таким образом, акцент на открытости и доступности информации становится ключевым фактором в развитии науки.
Сообщество научного опенсорса
Сообщество ITMO.OpenSource играет ключевую роль в популяризации открытого кода в научной сфере России, объединяя более 700 разработчиков и пользователей открытого ПО. Мы активно проводим митапы, расширяем сеть контактов в рамках таких мероприятий, как ODS DataFest, и поддерживаем студенческий клуб, что способствует развитию молодого поколения ученых и инженеров. Однако, невзирая на динамичное развитие и растущее количество участников, сообщество остаётся фрагментированным, что затрудняет обмен идеями и проектами. Многие группы работают в своих «информационных пузырях», не зная о существующих инициативах и разработках. Это отсутствие взаимосвязи препятствует не только росту общего интереса к опенсорсу, но и эффективному продвижению открытых решений. Объединение усилий и обмен опытом позволяют значительно упростить доступ к актуальным знаниям и разработкам, необходимым для формирования единой экосистемы открытых научных ресурсов.
Открытый код в ИИ
Открытый код в сфере искусственного интеллекта является важной частью научного сотрудничества и обмена знаниями. Он не ограничивается лишь библиотеками и фреймворками, включая также модели и бенчмарки, которые способствуют развитию ИИ технологий. Однако в рамках нашего исследования мы сосредоточились именно на библиотеках, так как они дают более полное представление о процессе разработки и поддержке проектов. Библиотеки, в отличие от моделей, требуют постоянного внимания и обновления, что позволяет глубже понимать динамику взаимодействий между разработчиками, научными группами и лабораториями.
Анализируя библиотеки, мы можем выявить ключевые тренды, интересы и пробелы в научном сообществе открытого кода. Они служат связующим звеном, которое объединяет разные команды и направления исследований, предоставляя возможность для совместного использования и адаптации разработок. Таким образом, сосредоточение на библиотеках позволяет нам лучше осознать структуру и эволюцию научного open source, делая его более доступным и полезным для широкого круга исследователей и специалистов в области ИИ.
Поиск и анализ репозиториев
Поиск репозиториев, содержащих научные ИИ-библиотеки, оказался сложной задачей, так как многие из интересующих нас проектов были просто не задокументированы или существуют вне популярных платформ. Мы проанализировали более 50 проектов, представленных в пяти университетах и четырех компаниях, чтобы получить более полное представление о состоянии научного open source в России. Однако отсутствие общего стандарта оценки таких репозиториев значительно усложняет ситуацию. На текущий момент многие проекты имеют небольшое количество звёзд на GitHub, а также ограниченное число участников, что затрудняет продвижение и популяризацию их среди научного сообщества. В качестве решения проблемы мы применили метрику SourceRank, агрегирующую различные параметры, такие как наличие документации, частота обновлений и количество зависимостей, что позволяет увидеть не только общее состояние проекта, но и его активность в разработке.
Результаты исследования
В ходе исследования мы обратили внимание на то, что большинство из проанализированных репозиториев имеют ограниченное количество звёзд и контрибьюторов, что свидетельствует о значительном потенциальном для роста и популяризации открытого кода в научной среде. Университет ИТМО занимает лидирующие позиции, благодаря наличию таких базовых элементов, как документация, лицензирование и регулярные релизы. Эти факторы обеспечивают более высокую видимость проектов и активную поддержку со стороны сообщества.
В то же время университеты ВШЭ и МФТИ демонстрируют достойные результаты, хотя количество их открытых проектов значительно меньше. Репозитории этих университетов также имеют основные элементы, что позволяет им сохранять активность и интерес со стороны пользователей, но отсутствие широкой поддержки и частоты обновлений сказывается на их общем влиянии. Тем не менее, это исследование показывает, что существует большая возможность для интеграции и сотрудничества между различными научными группами и организациями в России для повышения качества и доступности открытого кода.
Вклад компаний
Вопрос открытого кода в контексте компаний, таких как Яндекс и Сбер, является сложным и многогранным. Несмотря на то что эти компании активно публикуют модели и примеры, они реже сосредотачиваются на создании фреймворков для научного сообщества. Эта тенденция объясняется различием в приоритетах и ресурсах: промышленность ориентируется на разработку решений для конкретных бизнес-задач, которые обычно требуют значительных затрат времени и ресурсов. В то время как академические группы, как правило, имеют возможность экспериментов и более свободного творчества, компании стесняются выделять ресурсы на приключения, не всегда приносящие прямую финансовую прибыль. В результате возникает ситуация, когда компании создают мощные инструменты и модели, направленные на конкретные нужды, но не участвуют в формировании более общей инфраструктуры через открытые фреймворки.
Заключение
Исследование, проведенное в рамках анализа состояния научного open source в России, не претендует на формирование окончательных выводов, поскольку многие интересные проекты и инициативы могут оставаться незамеченными. Хотя представленный уровень развития открытого кода в университетах и компаниях задокументирован, количественная оценка этого уровня затруднительна из-за большой разнообразности задач и многогранности подходов, используемых в области искусственного интеллекта. Проблемы поиска и доступности информации о существующих проектах подчеркивают необходимость в создании более организованного сообщества, способного выявлять и продвигать такие разработки. Таким образом, исследование стало важным шагом в понимании текущей ситуации, но также и указанием на необходимость дальнейшего углубленного анализа и активного обмена знаний между разработчиками, научными группами и заинтересованными организациями.
Приглашение к участию
Мы надеемся, что наш обзор станет важной основой для будущих исследований и плодотворных дискуссий в рамках сообщества открытого кода в области ИИ. Если вы являетесь разработчиком или пользователем интересных библиотек, мы призываем вас делиться ими в нашем репозитории open-source-ops. Ваши комментарии, идеи и предложения помогут не только расширить ассортимент доступных проектов, но и создать более активное и взаимосвязанное сообщество. Присоединяйтесь к нам в ITMO.OpenSource, где мы собираем единомышленников, готовых развивать и поддерживать открытые научные решения. Вместе мы можем улучшить видимость и доступность наших проектных разработок, что, в свою очередь, поспособствует ускорению научных исследований и внедрению инновационных методов.