«Яндекс» приступает к созданию многомодальной нейронной сети SpeechGPT

По информации, полученной корреспондентом buffett.ru, компания Yandex активно развивает свои нейросетевые технологии. В настоящее время сервисы Yandex способны обрабатывать как голосовые, так и текстовые данные, однако этот процесс требует преобразования информации из одного формата в другой. Компания стремится создать многомодальную нейронную сеть, которая сможет сохранять нюансы, теряющиеся при таком преобразовании, например, эмоциональную окраску и иронию.

Отдел рекрутинга Yandex сообщает о разработке нейросетевой модели SpeechGPT. Хотя официального анонса пока не было, компания уже ищет специалиста по машинному обучению для присоединения к команде разработчиков. Предполагается, что SpeechGPT станет многомодальной моделью, способной обрабатывать различные типы входных данных, понимать текст и речь, отвечать текстом и голосом, а также решать задачи, связанные с интеграцией текста и речи.

Некоторые нейросетевые приложения Yandex уже сейчас могут принимать входные данные разных типов. Например, голосовой помощник «Алиса» общается с пользователями как голосом, так и текстом. В декабре прошлого года на сайте компании появилась отдельная страница для текстового чата. В конце мая этого года Yandex расширил возможности сервиса SpeechSense, изначально созданного для анализа данных колл-центров, добавив обработку текстовых сообщений. Приложение Neuro теперь может одновременно работать с текстом и изображениями.

Кирилл Петров, сооснователь компании Just AI, пояснил различие между многомодальным пользовательским опытом и многомодальными моделями. По его словам, в первом случае происходит последовательное преобразование данных из одного типа в другой, что может приводить к упрощению и увеличению времени обработки. Многомодальные модели, такие как GPT-4 от OpenAI, способны обрабатывать все типы контента без задержек.

Дмитрий Дырмовский, генеральный директор группы компаний «Центр речевых технологий», отметил, что многомодальные модели с поддержкой аудио способны распознавать речь на разных языках, разделять реплики собеседников, определять эмоции и сложные невербальные приемы. Такие модели могут снизить порог входа в речевые технологии, объединяя несколько технологий и используя единый интерфейс.

Как стало известно корреспонденту buffett.ru, компания Botcreators, разработчик интеллектуальных решений для бизнеса и выставочных мероприятий, представила на Российском интернет-форуме (RIF) уникального ИИ-бота. Этот бот позволяет участникам форума быстро находить свои фотографии, сделанные на мероприятии. Технология работает просто: участник отправляет боту свое фото с четким изображением лица, а нейросеть анализирует базу фотографий, собранных на форуме. В результате пользователь получает все фотографии, на которых он запечатлен.

Евгений Боровков, представитель Botcreators и коммерческий директор «Искусства автоматизации», подчеркнул, что их цель — сделать пребывание участников на RIF максимально комфортным и эффективным с точки зрения решения деловых задач. Технология позволяет пользователям не тратить время на просмотр сотен фотографий, а получать только те, на которых они действительно присутствуют.

Разработанная Botcreators технология распознавания лиц может найти применение в различных коммерческих сферах, от поиска фотографий руководителей компаний для создания контента до совершенствования систем контроля доступа. Она также доступна для малого и среднего бизнеса, которые не могут позволить себе решения, используемые IT-гигантами.

Сбербанк объявил о работе над обучением своей системы GigaChat для ведения многомодальных диалогов и сотрудничестве с Институтом искусственного интеллекта AIRI в разработке модели OmniFusion. В этих исследованиях участвуют ученые как из Сбербанка, так и из SberDevices.

Владимир Кравцев, эксперт по искусственному интеллекту и старший аналитик компании Axenix, предполагает, что минимально жизнеспособный продукт SpeechGPT может появиться в ближайшие месяцы, после чего начнется процесс постоянного совершенствования. По его мнению, SpeechGPT сначала будет интегрирована в существующие приложения Yandex, связанные с коммуникациями с клиентами и партнерами.

Светлана Другова, директор по продуктам компании Hybrid, выразила сомнение в том, что модель Yandex сможет конкурировать с многомодальными моделями Google (семейство Gemini) или OpenAI. Она отметила, что для создания конкурентоспособной модели потребуются миллиарды долларов инвестиций, хотя затраты Yandex могут быть несколько ниже благодаря уже имеющимся разработкам.

Опубликовано: 02.07.2024

0 0 голоса

Article Rating

0 Комментарий

Межтекстовые Отзывы

Посмотреть все комментарии

Все материалы на сайте Баффетт.РУ носят исключительно информационный характер, не являются офертой и не могут быть восприняты как рекомендации или призыв к действию с нашей стороны. Финансовые рынки несут высокие риски и любые торговые операции должны быть тщательно обдуманы.

2 июля 2024 14:03

поделиться...

Финансовые новости, инвестирование и вложение денег

«Яндекс» приступает к созданию многомодальной нейронной сети SpeechGPT