«Яндекс» приступает к созданию многомодальной нейронной сети SpeechGPT
По информации, полученной корреспондентом buffett.ru, компания Yandex активно развивает свои нейросетевые технологии. В настоящее время сервисы Yandex способны обрабатывать как голосовые, так и текстовые данные, однако этот процесс требует преобразования информации из одного формата в другой. Компания стремится создать многомодальную нейронную сеть, которая сможет сохранять нюансы, теряющиеся при таком преобразовании, например, эмоциональную окраску и иронию.
Отдел рекрутинга Yandex сообщает о разработке нейросетевой модели SpeechGPT. Хотя официального анонса пока не было, компания уже ищет специалиста по машинному обучению для присоединения к команде разработчиков. Предполагается, что SpeechGPT станет многомодальной моделью, способной обрабатывать различные типы входных данных, понимать текст и речь, отвечать текстом и голосом, а также решать задачи, связанные с интеграцией текста и речи.
Некоторые нейросетевые приложения Yandex уже сейчас могут принимать входные данные разных типов. Например, голосовой помощник «Алиса» общается с пользователями как голосом, так и текстом. В декабре прошлого года на сайте компании появилась отдельная страница для текстового чата. В конце мая этого года Yandex расширил возможности сервиса SpeechSense, изначально созданного для анализа данных колл-центров, добавив обработку текстовых сообщений. Приложение Neuro теперь может одновременно работать с текстом и изображениями.
Кирилл Петров, сооснователь компании Just AI, пояснил различие между многомодальным пользовательским опытом и многомодальными моделями. По его словам, в первом случае происходит последовательное преобразование данных из одного типа в другой, что может приводить к упрощению и увеличению времени обработки. Многомодальные модели, такие как GPT-4 от OpenAI, способны обрабатывать все типы контента без задержек.
Дмитрий Дырмовский, генеральный директор группы компаний «Центр речевых технологий», отметил, что многомодальные модели с поддержкой аудио способны распознавать речь на разных языках, разделять реплики собеседников, определять эмоции и сложные невербальные приемы. Такие модели могут снизить порог входа в речевые технологии, объединяя несколько технологий и используя единый интерфейс.
Как стало известно корреспонденту buffett.ru, компания Botcreators, разработчик интеллектуальных решений для бизнеса и выставочных мероприятий, представила на Российском интернет-форуме (RIF) уникального ИИ-бота. Этот бот позволяет участникам форума быстро находить свои фотографии, сделанные на мероприятии. Технология работает просто: участник отправляет боту свое фото с четким изображением лица, а нейросеть анализирует базу фотографий, собранных на форуме. В результате пользователь получает все фотографии, на которых он запечатлен.
Евгений Боровков, представитель Botcreators и коммерческий директор «Искусства автоматизации», подчеркнул, что их цель — сделать пребывание участников на RIF максимально комфортным и эффективным с точки зрения решения деловых задач. Технология позволяет пользователям не тратить время на просмотр сотен фотографий, а получать только те, на которых они действительно присутствуют.
Разработанная Botcreators технология распознавания лиц может найти применение в различных коммерческих сферах, от поиска фотографий руководителей компаний для создания контента до совершенствования систем контроля доступа. Она также доступна для малого и среднего бизнеса, которые не могут позволить себе решения, используемые IT-гигантами.
Сбербанк объявил о работе над обучением своей системы GigaChat для ведения многомодальных диалогов и сотрудничестве с Институтом искусственного интеллекта AIRI в разработке модели OmniFusion. В этих исследованиях участвуют ученые как из Сбербанка, так и из SberDevices.
Владимир Кравцев, эксперт по искусственному интеллекту и старший аналитик компании Axenix, предполагает, что минимально жизнеспособный продукт SpeechGPT может появиться в ближайшие месяцы, после чего начнется процесс постоянного совершенствования. По его мнению, SpeechGPT сначала будет интегрирована в существующие приложения Yandex, связанные с коммуникациями с клиентами и партнерами.
Светлана Другова, директор по продуктам компании Hybrid, выразила сомнение в том, что модель Yandex сможет конкурировать с многомодальными моделями Google (семейство Gemini) или OpenAI. Она отметила, что для создания конкурентоспособной модели потребуются миллиарды долларов инвестиций, хотя затраты Yandex могут быть несколько ниже благодаря уже имеющимся разработкам.
Все материалы на сайте Баффетт.РУ носят исключительно информационный характер, не являются офертой и не могут быть восприняты как рекомендации или призыв к действию с нашей стороны. Финансовые рынки несут высокие риски и любые торговые операции должны быть тщательно обдуманы.
Похожие материалы:
- Искусственный интеллект и экология: неудобная правда от Google
- Уоррен Баффет направил 5,3 миллиарда долларов на благотворительность в форме акций своей компании
- «Норникель» отчитался о снижении выбросов диоксида серы
- Повышение внутреннего туризма: правительство РФ стремится удержать до $50 млрд в стране
- Мобильные устройства в РФ будут продаваться с RuStore: законопроект депутатов и сенаторов
- Повышение прозрачности: Кабмин принял законопроект о контроле операций с драгоценными металлами и камнями
- Налоговый вычет для незарегистрированных предпринимателей: новое решение в России
- Lada Niva Sport на подходе: АвтоВАЗ готовится к массовому выпуску