OmniFusion 1.1 — первой мультимодальной ИИ-моделью в России от AIRI, Sber AI и Sber Devices, способной анализировать изображения и поддерживать диалоги на русском языке.
В последние годы искусственный интеллект продолжает преобразовывать множество отраслей, и новая разработка в этом направлении — это OmniFusion 1.1, первая мультимодальная ИИ-модель, созданная в России. Этот проект был реализован совместными усилиями Института AIRI, Sber AI и Sber Devices.
Ключевые возможности OmniFusion 1.1
OmniFusion 1.1 предлагает уникальные функции, которые отличают её от других моделей. Одной из самых заметных особенностей является способность модели отвечать на вопросы, связанные с изображениями, а также поддерживать беседу о содержимом картинок. Это включает описание того, что изображено, детализацию элементов и интерпретацию визуальной информации.
Кроме того, модель поддерживает русский язык, что делает её особенно ценной для российских пользователей и разработчиков, желающих интегрировать продвинутые AI-решения в свои проекты.
Эксперименты и достижения
В процессе разработки OmniFusion 1.1 было проведено множество экспериментов, включая сравнение различных визуальных энкодеров и методов их интеграции для создания единого мощного визуального энкодера. Модель была тщательно оценена на популярных бенчмарках, таких как MMMU, GQA, POPE и TextVQA. В некоторых категориях OmniFusion 1.1 показала лучшие результаты среди аналогичных моделей размером 7B и 13B, устанавливая стандарты SoTA на ряде платформ.
Будущее развитие
Создатели OmniFusion 1.1 уже планируют расширение функционала модели, включая поддержку аудио, 3D- и видеоконтента. Эти добавления сделают OmniFusion ещё более универсальным инструментом для разработчиков и исследователей в области искусственного интеллекта.
Ресурсы и документация
Для тех, кто заинтересован в изучении OmniFusion 1.1 более подробно, можно обратиться к техническому отчёту на Hugging Face и статье на Habr, которые подробно описывают работу с данными и кейсы использования. Все веса и код модели доступны в опенсорс на GitHub.
Источники:
- Отчёт об OmniFusion 1.1 на arXiv – Исследование
- Статья о работе с OmniFusion на Habr – Прочитать статью
- Исходный код OmniFusion на GitHub – Посмотреть код