Китайская DeepSeek обучила R1 за $294 тыс. на 512 Nvidia H800

DeepSeek опубликовала детали обучения своей reasoning-модели R1: всего $294 000 на кластере из 512 GPU Nvidia H800. Сумма в разы ниже публичных оценок у американских лидеров и может ускорить удешевление разработки ИИ-систем по всему миру.

Почему это важно: если сложные модели можно обучать кратно дешевле, в «гонку вооружений» войдут лаборатории университетского уровня и компании среднего масштаба. Это усилит конкуренцию и давление на лидеров рынка.

Ключевые данные: сколько и на чём обучали

По заявлению компании (исследование подано в журнал Nature), итоговая стоимость обучения составила $294 000 при конфигурации кластера из 512 ускорителей Nvidia H800. На подготовительном этапе использовались A100 для экспериментов с меньшей моделью; финальный прогон R1 занял примерно 80 часов на H800.

Как это вписывается в более широкий технологический контекст — мы ранее разбирали влияние «китайских» чипов на ИИ в материале DeepSeek V3.1: игра для чипов меняется.

Сравнение с рынком: почему цифра так контрастирует

Индустрия в последние годы называла бюджеты на обучение базовых LLM от десятков до сотен миллионов долларов. На этом фоне подход DeepSeek выглядит радикально более экономичным.

DeepSeek R1: ~$294 000 (512×H800)
Базовые LLM крупных игроков: «далеко за $100 млн» (по публичным заявлениям топ-менеджмента)

Чем ниже стоимость тренировки, тем быстрее такие модели появляются в продуктах и сервисах. Почему это влияет на поиск и контент — см. наш разбор как ИИ трансформирует поиск.

Откуда «экономия»: роль чипов и методологии

DeepSeek использует оптимизированные под китайский рынок Nvidia H800 (на фоне экспортных ограничений на H100/A100). Существенный вклад внесли дистилляция (обучение на ответах более сильных систем) и продуманная инженерия датасетов. Ранее компания подтверждала, что часть «дистиллированных» версий делались поверх открытой модели Llama.

«Дистилляция» — это когда одна ИИ-система обучается на выходах другой, унаследуя знания и поведение при меньших затратах.

Такой подход всё чаще совмещают с классическими пайплайнами RAG/тонкой настройки. Подробно о том, как контент и ИИ сходятся в одной воронке, мы писали в материале контент, который работает и для Google, и для ChatGPT.

Что это значит для экосистемы ИИ

Бум «нишевых» моделей под конкретные бизнес-задачи и домены.
Снижение барьеров входа и ускорение R&D-циклов.
Новая конкуренция по качеству и цене вывода в продакшн.

Параллельно растёт влияние ИИ-ответов в поиске и Discover: как в них попадать — см. наш гид как попасть в ленты Google Discover.

Контекст и последствия для разработчиков и SEO-рынка

Дешёвые reasoning-модели быстрее приземляются в пользовательские продукты, ассистенты и аналитические инструменты. Это повышает роль источников, на которые ссылаются ИИ-обзоры. Что меняется в экосистеме OpenAI — разбирали здесь: чего ждать от GPT-5 и как меняется ChatGPT.

FAQ

Почему обучение DeepSeek R1 такое дешёвое?
Ставка на H800, дистилляцию и компактные пайплайны обучения без «перегрева» датасетов.

Чем H800 отличается от H100?
Ограниченная версия под экспортные правила, но с достаточной пропускной способностью для эффективной параллельной тренировки.

Что это значит для рынка?
Больше моделей за меньше деньги: рост конкуренции, быстрее итерации и давление на стоимость внедрения ИИ.

Вывод

DeepSeek показывает, что сильную reasoning-модель можно обучить не за сотни миллионов. Если тренд закрепится, нас ждёт ускорение инноваций и доступности ИИ-решений — от корпоративных ассистентов до систем аналитики.

Источник фактов: публикация в Nature и сообщения крупных СМИ. Идут проверки независимыми лабораториями и дополнительные бенчмарки.

Post Views: 76