Ровно год назад мир увидел релиз модели Kandinsky 2.1, которая заслужила признание среди исследователей и дала мощный стимул для развития всей линейки моделей Kandinsky, разрабатываемых командой Sber AI Research. Сегодня мы с гордостью представляем новую версию — Kandinsky 3.1, которая вобрала в себя не только усовершенствования предыдущих версий, но и ряд новаторских решений, делающих ее одним из самых передовых инструментов в области генерации изображений по тексту.
За последний год область исследования мультимодальных и генеративных моделей продемонстрировала невероятный прогресс. Модели, такие как Kandinsky 2.1, 2.2, Stable Diffusion XL и другие, существенно продвинулись в понимании текстовых запросов и качестве синтеза изображений. В новой версии Kandinsky 3.1 мы сделали акцент на ускорении процесса генерации и расширении функциональных возможностей модели, сохраняя при этом высокое качество генерируемых изображений.
Одной из ключевых особенностей Kandinsky 3.1 является использование дистилляции по числу шагов диффузии, что позволило значительно ускорить процесс генерации. Также мы интегрировали улучшение промпта с помощью языковой модели и ввели IP-Adapter для более глубокого понимания контекста запроса. Важным нововведением стал ControlNet, позволяющий дополнительно контролировать процесс генерации, и функция Inpainting для дорисовки недостающих частей изображения.
Особое внимание в новой версии было уделено ускорению модели. Мы применили ряд инновационных подходов, в том числе Adversarial Diffusion Distillation, что позволило сократить количество необходимых шагов диффузии и тем самым ускорить процесс генерации в 20 раз по сравнению с Kandinsky 3.0.
Благодаря новым функциям, таким как бьютификация запроса и возможность работы с изображениями в высоком разрешении 4K, Kandinsky 3.1 открывает новые горизонты для пользователей, позволяя создавать еще более реалистичные и детализированные изображения.
Мы также представляем маленькие версии модели с 1 миллиардом параметров, которые делают Kandinsky доступным даже при ограниченных вычислительных ресурсах. Это делает модель идеальным инструментом не только для исследователей и разработчиков, но и для широкого круга пользователей, желающих исследовать возможности современного искусственного интеллекта в области генерации изображений.
Мы продолжаем совершенствовать Kandinsky, стремясь к созданию инструментов, которые позволяют пользователям максимально раскрыть свой творческий потенциал. Мы приглашаем всех желающих протестировать новые возможности Kandinsky 3.1, уверенные в том, что она найдет свое место в самых разнообразных проектах и исследованиях, связанных с генеративным искусством и не только.
Источник: Habr