Categories: Разное

«Яндекс» приступает к созданию многомодальной нейронной сети SpeechGPT

По информации, полученной корреспондентом buffett.ru, компания Yandex активно развивает свои нейросетевые технологии. В настоящее время сервисы Yandex способны обрабатывать как голосовые, так и текстовые данные, однако этот процесс требует преобразования информации из одного формата в другой. Компания стремится создать многомодальную нейронную сеть, которая сможет сохранять нюансы, теряющиеся при таком преобразовании, например, эмоциональную окраску и иронию.

Отдел рекрутинга Yandex сообщает о разработке нейросетевой модели SpeechGPT. Хотя официального анонса пока не было, компания уже ищет специалиста по машинному обучению для присоединения к команде разработчиков. Предполагается, что SpeechGPT станет многомодальной моделью, способной обрабатывать различные типы входных данных, понимать текст и речь, отвечать текстом и голосом, а также решать задачи, связанные с интеграцией текста и речи.

Некоторые нейросетевые приложения Yandex уже сейчас могут принимать входные данные разных типов. Например, голосовой помощник «Алиса» общается с пользователями как голосом, так и текстом. В декабре прошлого года на сайте компании появилась отдельная страница для текстового чата. В конце мая этого года Yandex расширил возможности сервиса SpeechSense, изначально созданного для анализа данных колл-центров, добавив обработку текстовых сообщений. Приложение Neuro теперь может одновременно работать с текстом и изображениями.

Кирилл Петров, сооснователь компании Just AI, пояснил различие между многомодальным пользовательским опытом и многомодальными моделями. По его словам, в первом случае происходит последовательное преобразование данных из одного типа в другой, что может приводить к упрощению и увеличению времени обработки. Многомодальные модели, такие как GPT-4 от OpenAI, способны обрабатывать все типы контента без задержек.

Дмитрий Дырмовский, генеральный директор группы компаний «Центр речевых технологий», отметил, что многомодальные модели с поддержкой аудио способны распознавать речь на разных языках, разделять реплики собеседников, определять эмоции и сложные невербальные приемы. Такие модели могут снизить порог входа в речевые технологии, объединяя несколько технологий и используя единый интерфейс.

Как стало известно корреспонденту buffett.ru, компания Botcreators, разработчик интеллектуальных решений для бизнеса и выставочных мероприятий, представила на Российском интернет-форуме (RIF) уникального ИИ-бота. Этот бот позволяет участникам форума быстро находить свои фотографии, сделанные на мероприятии. Технология работает просто: участник отправляет боту свое фото с четким изображением лица, а нейросеть анализирует базу фотографий, собранных на форуме. В результате пользователь получает все фотографии, на которых он запечатлен.

Евгений Боровков, представитель Botcreators и коммерческий директор «Искусства автоматизации», подчеркнул, что их цель — сделать пребывание участников на RIF максимально комфортным и эффективным с точки зрения решения деловых задач. Технология позволяет пользователям не тратить время на просмотр сотен фотографий, а получать только те, на которых они действительно присутствуют.

Разработанная Botcreators технология распознавания лиц может найти применение в различных коммерческих сферах, от поиска фотографий руководителей компаний для создания контента до совершенствования систем контроля доступа. Она также доступна для малого и среднего бизнеса, которые не могут позволить себе решения, используемые IT-гигантами.

Сбербанк объявил о работе над обучением своей системы GigaChat для ведения многомодальных диалогов и сотрудничестве с Институтом искусственного интеллекта AIRI в разработке модели OmniFusion. В этих исследованиях участвуют ученые как из Сбербанка, так и из SberDevices.

Владимир Кравцев, эксперт по искусственному интеллекту и старший аналитик компании Axenix, предполагает, что минимально жизнеспособный продукт SpeechGPT может появиться в ближайшие месяцы, после чего начнется процесс постоянного совершенствования. По его мнению, SpeechGPT сначала будет интегрирована в существующие приложения Yandex, связанные с коммуникациями с клиентами и партнерами.

Светлана Другова, директор по продуктам компании Hybrid, выразила сомнение в том, что модель Yandex сможет конкурировать с многомодальными моделями Google (семейство Gemini) или OpenAI. Она отметила, что для создания конкурентоспособной модели потребуются миллиарды долларов инвестиций, хотя затраты Yandex могут быть несколько ниже благодаря уже имеющимся разработкам.

admin

Recent Posts

В России разрабатывают стратегическую семейную политику для обеспечения демографического роста

На первом заседании комиссии Государственного совета РФ по направлению "Семья" в Великом Новгороде обсудили разработку…

7 минут ago

В Москве впервые оштрафовали пользователя электросамоката на 100 тысяч рублей

Сервис кикшеринга "МТС Юрент" впервые применил штраф в размере 100 тысяч рублей к пользователю за…

18 минут ago

Генсек НАТО: консенсуса по приглашению Украины в альянс пока нет

Генеральный секретарь НАТО Йенс Столтенберг в интервью журналу Foreign Policy заявил, что на данный момент…

23 минуты ago

Президент России подписал указ об увеличении численности вооруженных сил

Президент Российской Федерации Владимир Путин подписал указ об увеличении штатной численности Вооруженных сил РФ. Согласно…

28 минут ago

Минфин планирует принятие закона о налогообложении майнинга в осеннюю сессию Госдумы

Министерство финансов России рассчитывает на принятие законопроекта о налогообложении майнинговой отрасли в ходе осенней сессии…

8 часов ago

Правительство поддержало законопроект о штрафах за повторную езду без ОСАГО

Правительство России одобрило законопроект, вводящий штраф от 3 до 5 тысяч рублей за повторное управление…

8 часов ago