Главная страница » OmniFusion 1.1: Прорыв в мультимодальных ИИ-моделях в России

OmniFusion 1.1: Прорыв в мультимодальных ИИ-моделях в России

OmniFusion 1.1 — первой мультимодальной ИИ-моделью в России от AIRI, Sber AI и Sber Devices, способной анализировать изображения и поддерживать диалоги на русском языке.

В последние годы искусственный интеллект продолжает преобразовывать множество отраслей, и новая разработка в этом направлении — это OmniFusion 1.1, первая мультимодальная ИИ-модель, созданная в России. Этот проект был реализован совместными усилиями Института AIRI, Sber AI и Sber Devices.

Ключевые возможности OmniFusion 1.1

OmniFusion 1.1 предлагает уникальные функции, которые отличают её от других моделей. Одной из самых заметных особенностей является способность модели отвечать на вопросы, связанные с изображениями, а также поддерживать беседу о содержимом картинок. Это включает описание того, что изображено, детализацию элементов и интерпретацию визуальной информации.

Кроме того, модель поддерживает русский язык, что делает её особенно ценной для российских пользователей и разработчиков, желающих интегрировать продвинутые AI-решения в свои проекты.

Эксперименты и достижения

В процессе разработки OmniFusion 1.1 было проведено множество экспериментов, включая сравнение различных визуальных энкодеров и методов их интеграции для создания единого мощного визуального энкодера. Модель была тщательно оценена на популярных бенчмарках, таких как MMMU, GQA, POPE и TextVQA. В некоторых категориях OmniFusion 1.1 показала лучшие результаты среди аналогичных моделей размером 7B и 13B, устанавливая стандарты SoTA на ряде платформ.

Будущее развитие

Создатели OmniFusion 1.1 уже планируют расширение функционала модели, включая поддержку аудио, 3D- и видеоконтента. Эти добавления сделают OmniFusion ещё более универсальным инструментом для разработчиков и исследователей в области искусственного интеллекта.

Ресурсы и документация

Для тех, кто заинтересован в изучении OmniFusion 1.1 более подробно, можно обратиться к техническому отчёту на Hugging Face и статье на Habr, которые подробно описывают работу с данными и кейсы использования. Все веса и код модели доступны в опенсорс на GitHub.

Источники:

  1. Отчёт об OmniFusion 1.1 на arXiv – Исследование
  2. Статья о работе с OmniFusion на Habr – Прочитать статью
  3. Исходный код OmniFusion на GitHub – Посмотреть код
0

Автор публикации

не в сети 13 часов

aiinsider

0
Комментарии: 0Публикации: 792Регистрация: 18-09-2023
Поделиться