"Яндекс" приступает к созданию многомодальной нейронной сети SpeechGPT

«Яндекс» приступает к созданию многомодальной нейронной сети SpeechGPT

По информации, полученной корреспондентом buffett.ru, компания Yandex активно развивает свои нейросетевые технологии. В настоящее время сервисы Yandex способны обрабатывать как голосовые, так и текстовые данные, однако этот процесс требует преобразования информации из одного формата в другой. Компания стремится создать многомодальную нейронную сеть, которая сможет сохранять нюансы, теряющиеся при таком преобразовании, например, эмоциональную окраску и иронию.

Отдел рекрутинга Yandex сообщает о разработке нейросетевой модели SpeechGPT. Хотя официального анонса пока не было, компания уже ищет специалиста по машинному обучению для присоединения к команде разработчиков. Предполагается, что SpeechGPT станет многомодальной моделью, способной обрабатывать различные типы входных данных, понимать текст и речь, отвечать текстом и голосом, а также решать задачи, связанные с интеграцией текста и речи.

Некоторые нейросетевые приложения Yandex уже сейчас могут принимать входные данные разных типов. Например, голосовой помощник «Алиса» общается с пользователями как голосом, так и текстом. В декабре прошлого года на сайте компании появилась отдельная страница для текстового чата. В конце мая этого года Yandex расширил возможности сервиса SpeechSense, изначально созданного для анализа данных колл-центров, добавив обработку текстовых сообщений. Приложение Neuro теперь может одновременно работать с текстом и изображениями.

Кирилл Петров, сооснователь компании Just AI, пояснил различие между многомодальным пользовательским опытом и многомодальными моделями. По его словам, в первом случае происходит последовательное преобразование данных из одного типа в другой, что может приводить к упрощению и увеличению времени обработки. Многомодальные модели, такие как GPT-4 от OpenAI, способны обрабатывать все типы контента без задержек.

Дмитрий Дырмовский, генеральный директор группы компаний «Центр речевых технологий», отметил, что многомодальные модели с поддержкой аудио способны распознавать речь на разных языках, разделять реплики собеседников, определять эмоции и сложные невербальные приемы. Такие модели могут снизить порог входа в речевые технологии, объединяя несколько технологий и используя единый интерфейс.

Как стало известно корреспонденту buffett.ru, компания Botcreators, разработчик интеллектуальных решений для бизнеса и выставочных мероприятий, представила на Российском интернет-форуме (RIF) уникального ИИ-бота. Этот бот позволяет участникам форума быстро находить свои фотографии, сделанные на мероприятии. Технология работает просто: участник отправляет боту свое фото с четким изображением лица, а нейросеть анализирует базу фотографий, собранных на форуме. В результате пользователь получает все фотографии, на которых он запечатлен.

Евгений Боровков, представитель Botcreators и коммерческий директор «Искусства автоматизации», подчеркнул, что их цель — сделать пребывание участников на RIF максимально комфортным и эффективным с точки зрения решения деловых задач. Технология позволяет пользователям не тратить время на просмотр сотен фотографий, а получать только те, на которых они действительно присутствуют.

Разработанная Botcreators технология распознавания лиц может найти применение в различных коммерческих сферах, от поиска фотографий руководителей компаний для создания контента до совершенствования систем контроля доступа. Она также доступна для малого и среднего бизнеса, которые не могут позволить себе решения, используемые IT-гигантами.

Сбербанк объявил о работе над обучением своей системы GigaChat для ведения многомодальных диалогов и сотрудничестве с Институтом искусственного интеллекта AIRI в разработке модели OmniFusion. В этих исследованиях участвуют ученые как из Сбербанка, так и из SberDevices.

Владимир Кравцев, эксперт по искусственному интеллекту и старший аналитик компании Axenix, предполагает, что минимально жизнеспособный продукт SpeechGPT может появиться в ближайшие месяцы, после чего начнется процесс постоянного совершенствования. По его мнению, SpeechGPT сначала будет интегрирована в существующие приложения Yandex, связанные с коммуникациями с клиентами и партнерами.

Светлана Другова, директор по продуктам компании Hybrid, выразила сомнение в том, что модель Yandex сможет конкурировать с многомодальными моделями Google (семейство Gemini) или OpenAI. Она отметила, что для создания конкурентоспособной модели потребуются миллиарды долларов инвестиций, хотя затраты Yandex могут быть несколько ниже благодаря уже имеющимся разработкам.

admin

Next В РФ увеличилась суточная погрузка лесных грузов на 8,4% в 2024 году, достигнув 74 тысячи тонн в сутки. »

Previous « Платежные связи между Россией и Китаем продолжают укрепляться вопреки санкциям

Южная Корея потратит миллиарды на борьбу с последствиями энергетического кризиса

Более 32 миллионов южнокорейцев получат прямые денежные выплаты — такое решение стало центральным элементом масштабного…

21 час ago

В России

Новые туристические маршруты по адыгской культуре появятся в Сочи этим летом

К летнему сезону курорт Сочи готовит новые туристические маршруты, которые познакомят гостей с культурой адыгов-шапсугов.…

21 час ago

В мире

Bloomberg: индийские НПЗ закупают российскую нефть рекордными темпами

Запасы нефти в Индии покрывают лишь около 25 дней потребления — именно это обстоятельство превратило…

21 час ago

В мире

Financial Times: еврокомиссар не исключил стагфляцию в странах Евросоюза

Европейский союз не избежит экономических потрясений даже после заключения перемирия между США и Ираном. Такое…

2 дня ago

ЦБ ограничит число карт для борьбы с дропперами и мошенниками

Большинство россиян даже не заметят нового ограничения — в среднем на одного жителя страны приходится…

2 дня ago

В России

Россияне запасаются наличными на фоне отключений мобильного интернета

Перебои с мобильным интернетом могли подтолкнуть россиян и бизнес активнее снимать наличные. К такому выводу…

2 дня ago

Баффетт.РУ