Голландские ученые ускорили обучение ИИ в 60 раз с помощью российского датасета
Исследователи из Амстердамского университета разработали метод, сокращающий время подготовки рекомендательных систем с 82 минут до 83 секунд. Ключевую роль в достижении сыграл крупномасштабный набор данных Yambda, созданный российской компанией «Яндекс».
Работа нидерландских специалистов наглядно показывает практическую ценность публикации промышленных данных для развития искусственного интеллекта, сообщила ТАСС пресс-служба компании. Долгое время исследовательское сообщество испытывало нехватку доступа к реальным массивам информации такого масштаба.
Датасет на основе музыкального сервиса
Летом 2025 года разработчики «Яндекса» опубликовали один из крупнейших в мире наборов данных для развития рекомендательных систем. Полная версия Yambda содержит пять миллиардов элементов, построенных на обезличенной информации из «Яндекс.Музыки».
В датасет вошли агрегированные данные о прослушиваниях, реакциях пользователей (лайки и дизлайки), а также характеристики музыкальных композиций. Публикация такого объема производственной информации стала редким случаем открытости со стороны технологической компании.
Проблема существующих алгоритмов
Ученые из Нидерландов использовали Yambda для совершенствования подхода на базе алгоритма SEATER, разработанного китайскими исследователями. Этот метод организует все треки или товары в иерархический каталог, напоминающий древовидную структуру папок на компьютере.
Теоретически такая система позволяет быстрее и точнее формировать персонализированные рекомендации. Однако на практике создание каталога требовало чрезмерно длительного времени в процессе обучения модели. Это препятствовало оперативному обновлению рекомендаций и адаптации к меняющимся предпочтениям аудитории.
Решение амстердамских исследователей
Специалисты из Амстердамского университета подготовили два альтернативных метода ускорения формирования каталога. Оба варианта были протестированы на российском датасете.
Результаты превзошли ожидания. Наиболее эффективный алгоритм продемонстрировал почти 60-кратное сокращение времени — с 82 минут до 83 секунд. При этом качество рекомендаций практически не пострадало, и улучшенная версия SEATER по-прежнему превосходит уже применяющиеся на рынке системы.
Открытый код и индустриальная польза
Весь программный код модернизированной модели был опубликован в открытом доступе. Это позволяет другим разработчикам использовать достижение для собственных проектов и продолжать исследования в области рекомендательных технологий.
«Яндекс» устранил разрыв между академическим сообществом и промышленными данными, предоставив уникальный инструмент для глобального развития направления, отметили в компании. Случай с нидерландскими учеными подтверждает эффективность стратегии открытой публикации больших наборов данных.
Ускорение обучения моделей имеет прямое практическое применение. Компании смогут чаще обновлять рекомендательные системы, оперативнее реагировать на изменения пользовательского поведения и снижать вычислительные затраты на поддержку сервисов. Это особенно важно для музыкальных платформ, видеосервисов и электронной коммерции, где актуальность рекомендаций напрямую влияет на вовлеченность аудитории.
Источник: ТАСС
Все материалы на сайте Баффетт.РУ носят исключительно информационный характер, не являются офертой и не могут быть восприняты как рекомендации или призыв к действию с нашей стороны. Финансовые рынки несут высокие риски и любые торговые операции должны быть тщательно обдуманы.
Похожие материалы:
- Российские ледоколы помогают финским судам в Финском заливе
- Российские яйца вернулись на чешский рынок после перерыва
- Импорт российских сладостей в США достиг четырехлетнего максимума
- Франция установила рекорд по импорту российского титана за 33 года
- Китай нарастил импорт российской нефти на фоне сокращения индийских закупок
- Италия израсходовала половину газовых запасов к середине февраля
- Крупнейшее молочное предприятие Эстонии обанкротилось за год
- Немецкая промышленность потеряла 124 тысячи рабочих мест за год





