Главная страница » OmniFusion 1.1 – Первая мультимодальная AI-модель в России

OmniFusion 1.1 – Первая мультимодальная AI-модель в России

Институт AIRI, в сотрудничестве с Sber AI и Sber Devices, достиг важной вехи в развитии искусственного интеллекта, выпустив и предоставив открытый доступ к обновлённой версии LLM (Large Language Models) – мультимодальной AI-модели OmniFusion 1.1.

Возможности OmniFusion 1.1

OmniFusion 1.1 обладает уникальной способностью воспринимать и анализировать изображения вместе с текстом, отвечать на вопросы по картинкам, описывать детали и интерпретировать визуальную информацию. Более того, модель адаптирована к пониманию и обработке русского языка, что делает её одной из первых подобных систем в России.

Исследования и результаты

Разработка архитектуры включала серию экспериментов, направленных на сравнение и оптимизацию визуальных энкодеров. Результатом стало создание унифицированного визуального энкодера, позволяющего модели работать с изображениями на новом уровне. Качество работы модели было протестировано на ряде известных бенчмарков, таких как MMMU, GQA, POPE и TextVQA. В отдельных задачах OmniFusion 1.1 показала лучшие результаты среди аналогичных моделей объемом 7B и 13B, достигнув лидирующих позиций по ряду показателей среди моделей сопоставимого размера.

Планы на будущее

Создатели модели обещают дальнейшее расширение функционала, добавив обработку аудио, 3D и видеоконтента. Это позволит использовать OmniFusion в ещё более широком спектре задач, включая, возможно, создание и анализ сложного мультимедийного контента.

Ресурсы и документация

Для тех, кто желает углубиться в детали работы OmniFusion 1.1, доступны подробные материалы на ресурсе Habr, а также технический отчёт на платформе Hugging Face, который входит в число самых просматриваемых статей. Исходный код и веса модели предоставлены в открытом доступе на GitHub, что даёт исследователям и разработчикам возможность не только изучать, но и вносить свой вклад в развитие проекта.

OmniFusion 1.1 открывает новые перспективы для мультимодального взаимодействия с искусственным интеллектом. Сочетание текстового и визуального понимания с поддержкой русского языка делает эту модель особенно ценной для различных областей, от медиа и образования до разработки инновационных пользовательских интерфейсов и автоматизации рабочих процессов.

Источник: Технический отчёт на Hugging Face, Статья на Habr, Исходный код на GitHub

0

Автор публикации

не в сети 16 часов

aiinsider

0
Комментарии: 0Публикации: 551Регистрация: 18-09-2023
Поделиться