Исследователи из Амстердамского университета разработали метод, сокращающий время подготовки рекомендательных систем с 82 минут до 83 секунд. Ключевую роль в достижении сыграл крупномасштабный набор данных Yambda, созданный российской компанией «Яндекс».
Работа нидерландских специалистов наглядно показывает практическую ценность публикации промышленных данных для развития искусственного интеллекта, сообщила ТАСС пресс-служба компании. Долгое время исследовательское сообщество испытывало нехватку доступа к реальным массивам информации такого масштаба.
Летом 2025 года разработчики «Яндекса» опубликовали один из крупнейших в мире наборов данных для развития рекомендательных систем. Полная версия Yambda содержит пять миллиардов элементов, построенных на обезличенной информации из «Яндекс.Музыки».
В датасет вошли агрегированные данные о прослушиваниях, реакциях пользователей (лайки и дизлайки), а также характеристики музыкальных композиций. Публикация такого объема производственной информации стала редким случаем открытости со стороны технологической компании.
Ученые из Нидерландов использовали Yambda для совершенствования подхода на базе алгоритма SEATER, разработанного китайскими исследователями. Этот метод организует все треки или товары в иерархический каталог, напоминающий древовидную структуру папок на компьютере.
Теоретически такая система позволяет быстрее и точнее формировать персонализированные рекомендации. Однако на практике создание каталога требовало чрезмерно длительного времени в процессе обучения модели. Это препятствовало оперативному обновлению рекомендаций и адаптации к меняющимся предпочтениям аудитории.
Специалисты из Амстердамского университета подготовили два альтернативных метода ускорения формирования каталога. Оба варианта были протестированы на российском датасете.
Результаты превзошли ожидания. Наиболее эффективный алгоритм продемонстрировал почти 60-кратное сокращение времени — с 82 минут до 83 секунд. При этом качество рекомендаций практически не пострадало, и улучшенная версия SEATER по-прежнему превосходит уже применяющиеся на рынке системы.
Весь программный код модернизированной модели был опубликован в открытом доступе. Это позволяет другим разработчикам использовать достижение для собственных проектов и продолжать исследования в области рекомендательных технологий.
«Яндекс» устранил разрыв между академическим сообществом и промышленными данными, предоставив уникальный инструмент для глобального развития направления, отметили в компании. Случай с нидерландскими учеными подтверждает эффективность стратегии открытой публикации больших наборов данных.
Ускорение обучения моделей имеет прямое практическое применение. Компании смогут чаще обновлять рекомендательные системы, оперативнее реагировать на изменения пользовательского поведения и снижать вычислительные затраты на поддержку сервисов. Это особенно важно для музыкальных платформ, видеосервисов и электронной коммерции, где актуальность рекомендаций напрямую влияет на вовлеченность аудитории.
Источник: ТАСС
Несколько грузовых судов под флагом Финляндии оказались заблокированы льдами в Финском заливе. Помощь им оказывают…
Отечественные специалисты разработали технологию управления полом вылупляющихся птенцов на основе искусственного интеллекта и геномной селекции.…
Предприятие в Шушарах, ранее принадлежавшее General Motors, завершило техническую модернизацию и готовится к выпуску автомобилей…
Чешские компании возобновили закупки куриных яиц у российских поставщиков. Импорт состоялся впервые с середины 2021…
Ассоциация туроператоров России представила прогноз самых востребованных зарубежных направлений для отдыха в текущем году. Рейтинг…
Формат магазинов-дискаунтеров стремительно набирает обороты на российском рынке продовольственной розницы. Эксперты прогнозируют, что к 2030…