19/04/2024

Ученые научно-исследовательского Института искусственного интеллекта AIRI разработали первую в России мультимодальную модель ИИ, способную поддерживать визуальный диалог и отвечать на вопросы пользователей по картинкам. Она получила название OmniFusion, поддерживает русский язык, а open-source-код для обучения доступен к использованию и может применяться в том числе при разработке коммерческих продуктов. 

Мультимодальные модели открывают новые возможности для анализа информации и выводов, но для обучения и корректной работы продуктов на их основе нужен гигантский объем качественно размещенного контента, предупреждают аналитики.

OmniFusion предназначена для расширения возможностей традиционных систем обработки языка за счет интеграции дополнительных модальностей данных, например, изображений, а в перспективе – аудио, 3D- и видеоконтента. Ее обучением занимается научная группа FusionBrain Института AIRI при участии ученых из Sber AI и SberDevices. Модель распознает и описывает изображения, с ее помощью можно объяснить, что изображено на фото, узнать рецепт приготовления блюда по фотографии ингредиентов, проанализировать карту помещения или узнать, как собрать устройство по фото отдельных его частей, приводят примеры в AIRI.

OmniFusion также умеет распознавать текст и решать логические задачи. Например, с ее помощью можно решить написанный на доске математический пример или распознать формулу, а также получить их представления в формате LaTeX (ПО, в котором работают ученые, в том числе из сферы ИИ и компьютерных наук, математики, позволяет проще и удобнее работать с длинными и сложными формулами). 

«Спектр возможностей широкий: уже сейчас модель может проанализировать медицинское изображение [снимок] и указать на нем какую-то проблему. Разумеется, чтобы подобная модель помогала ставить диагнозы, ее необходимо дополнительно обучать на профильных датасетах с привлечением экспертов из медицины», – указывают в AIRI.

Среди зарубежных аналогов на рынке представлены, например, LLaVA, Gemini, GPT4-Vision, а также китайские модели Qwen, DeepSeek и LVIS. В AIRI поясняют: «Часть из этих моделей относится к числу проприетарных, то есть находится в закрытом доступе, и судить о метриках качества таких моделей можно только на основе опубликованных компаниями цифр или посредством платных API».

Эксперименты по оценке качества показали: OmniFusion «достигает высоких результатов» в большинстве бенчмарков, не уступая зарубежным моделям, которые в том числе построены на более крупных языковых моделях (например, LLaVA-13B).

В России уже работают модели, предназначенные для синтеза изображений по текстовым описаниям, – например, Kandinsky от «Сбера» или YandexArt от «Яндекса». Это диффузионные модели, которые «расшифровывают» числовые представления текста в изображения, здесь на вход подается текстовое описание, а на выходе появляется изображение. «Мультимодальная же архитектура – это модель, в основе которой находится LLM, она специальным образом учится анализировать изображения, чтобы описывать их (превращать в текст), отвечать на различные вопросы по изображениям и т.д. То есть она их понимает. В подобной архитектуре в качестве входа сейчас выступают одновременно изображения и текст, а может быть и видео, и аудио. А на выходе – текст», – поясняют разницу в AIRI.

В основе open-source-версии OmniFusion 1.1 лежит языковая модель Mistral, она находится в открытом доступе и имеет самые лояльные лицензии для проведения научных экспериментов. «Однако в «ядро» OmniFusion можно поместить абсолютно любую большую языковую модель – и проприетарную, и открытую, и обученную на любом языке – главное, чтобы это была LLM», – указывают в AIRI.

Такие модели могут найти свое применение в ретейле, контент-мейкинге, дизайне, на маркетплейсах для оптимизации рутины.

Источник: Форбс