
DeepSeek опубликовала детали обучения своей reasoning-модели R1: всего $294 000 на кластере из 512 GPU Nvidia H800. Сумма в разы ниже публичных оценок у американских лидеров и может ускорить удешевление разработки ИИ-систем по всему миру.
Почему это важно: если сложные модели можно обучать кратно дешевле, в «гонку вооружений» войдут лаборатории университетского уровня и компании среднего масштаба. Это усилит конкуренцию и давление на лидеров рынка.
Ключевые данные: сколько и на чём обучали
По заявлению компании (исследование подано в журнал Nature), итоговая стоимость обучения составила $294 000 при конфигурации кластера из 512 ускорителей Nvidia H800. На подготовительном этапе использовались A100 для экспериментов с меньшей моделью; финальный прогон R1 занял примерно 80 часов на H800.
Как это вписывается в более широкий технологический контекст — мы ранее разбирали влияние «китайских» чипов на ИИ в материале DeepSeek V3.1: игра для чипов меняется.
Сравнение с рынком: почему цифра так контрастирует
Индустрия в последние годы называла бюджеты на обучение базовых LLM от десятков до сотен миллионов долларов. На этом фоне подход DeepSeek выглядит радикально более экономичным.
- DeepSeek R1: ~$294 000 (512×H800)
- Базовые LLM крупных игроков: «далеко за $100 млн» (по публичным заявлениям топ-менеджмента)
Чем ниже стоимость тренировки, тем быстрее такие модели появляются в продуктах и сервисах. Почему это влияет на поиск и контент — см. наш разбор как ИИ трансформирует поиск.
Откуда «экономия»: роль чипов и методологии
DeepSeek использует оптимизированные под китайский рынок Nvidia H800 (на фоне экспортных ограничений на H100/A100). Существенный вклад внесли дистилляция (обучение на ответах более сильных систем) и продуманная инженерия датасетов. Ранее компания подтверждала, что часть «дистиллированных» версий делались поверх открытой модели Llama.
«Дистилляция» — это когда одна ИИ-система обучается на выходах другой, унаследуя знания и поведение при меньших затратах.
Такой подход всё чаще совмещают с классическими пайплайнами RAG/тонкой настройки. Подробно о том, как контент и ИИ сходятся в одной воронке, мы писали в материале контент, который работает и для Google, и для ChatGPT.
Что это значит для экосистемы ИИ
- Бум «нишевых» моделей под конкретные бизнес-задачи и домены.
- Снижение барьеров входа и ускорение R&D-циклов.
- Новая конкуренция по качеству и цене вывода в продакшн.
Параллельно растёт влияние ИИ-ответов в поиске и Discover: как в них попадать — см. наш гид как попасть в ленты Google Discover.
Контекст и последствия для разработчиков и SEO-рынка
Дешёвые reasoning-модели быстрее приземляются в пользовательские продукты, ассистенты и аналитические инструменты. Это повышает роль источников, на которые ссылаются ИИ-обзоры. Что меняется в экосистеме OpenAI — разбирали здесь: чего ждать от GPT-5 и как меняется ChatGPT.
FAQ
Почему обучение DeepSeek R1 такое дешёвое?
Ставка на H800, дистилляцию и компактные пайплайны обучения без «перегрева» датасетов.
Чем H800 отличается от H100?
Ограниченная версия под экспортные правила, но с достаточной пропускной способностью для эффективной параллельной тренировки.
Что это значит для рынка?
Больше моделей за меньше деньги: рост конкуренции, быстрее итерации и давление на стоимость внедрения ИИ.
Вывод
DeepSeek показывает, что сильную reasoning-модель можно обучить не за сотни миллионов. Если тренд закрепится, нас ждёт ускорение инноваций и доступности ИИ-решений — от корпоративных ассистентов до систем аналитики.
Источник фактов: публикация в Nature и сообщения крупных СМИ. Идут проверки независимыми лабораториями и дополнительные бенчмарки.