DeepSeek V4: Китайские разработчики обнулили цену на длинный контекст и вывели открытые модели на новый уровень
Китайская DeepSeek вывела на рынок две открытые модели V4-Pro и V4-Flash с поддержкой 1 миллиона токенов контекста по умолчанию. Новый механизм внимания сделал обработку данных дешёвой, а модели претендуют на статус открытого SOTA в агентном кодинге и STEM. API поддерживает форма.

- Китайская DeepSeek выпустила две открытые модели V4-Pro (1,6 трлн параметров) и V4-Flash (284 млрд параметров) с поддержкой 1 миллиона токенов контекста по умолчанию.
- Главная инновация — переработанный механизм внимания с токенной компрессией и DeepSeek Sparse Attention, что сделало обработку длинного контекста дешёвой.
- V4-Pro претендует на статус открытого SOTA в агентном кодинге, математике и STEM, уступая только Gemini 3.1 Pro в общих знаниях.
- API моделей поддерживает форматы OpenAI ChatCompletions и Anthropic с переключением между Thinking и Non-Thinking режимами.
- Старые модели deepseek-chat и deepseek-reasoner будут отключены 24 июля 2026 года, что даёт разработчикам три месяца на миграцию.
Китайская DeepSeek вывела на рынок две новые открытые модели — V4-Pro и V4-Flash, которые моментально изменили правила игры на рынке длинного контекста. Обе модели поддерживают 1 миллион токенов контекста по умолчанию, что ранее было премиум-опцией за отдельную плату у конкурентов.
V4-Pro насчитывает 1,6 триллиона параметров с 49 миллиардами активных, а V4-Flash — 284 миллиарда параметров с 13 активными. По данным разработчиков, обновлённый механизм внимания с токенной компрессией и DeepSeek Sparse Attention сделал обработку длинного контекста дешёвой, а не просто «технически возможной за пять долларов за запрос». По заявлению DeepSeek, V4-Pro претендует на статус открытого SOTA в агентном кодинге, математике и STEM, уступая только Gemini 3.1 Pro в общих знаниях. Flash-версия идёт почти вплотную по качеству рассуждений и уверенно держит планку Pro на простых агентных задачах, но с меньшей задержкой и заметно более низкой стоимостью.
API моделей поддерживает форматы OpenAI ChatCompletions и Anthropic, а также позволяет переключаться между Thinking и Non-Thinking режимами.
Это упрощает интеграцию для разработчиков, привыкших к западным решениям. Старые модели deepseek-chat и deepseek-reasoner будут отключены 24 июля 2026 года, что даёт командам три месяца на миграцию. В релизе также упомянуто, что модели «бесшовно интегрируются с Claude Code, OpenClaw и OpenCode», что может стать дополнительным стимулом для разработчиков, использующих решения Anthropic.
DeepSeek не скрывает амбиций: в компании заявляют, что во второй половине 2026 года, с запуском инференс-инфраструктуры Huawei Atlas 950 SuperPoD на чипах Ascend, стоимость обработки на V4-Pro заметно снизится. Это означает переход на китайское железо и отказ от зависимости от Nvidia.
Эксперты уже отмечают, что релиз V4 может стать переломным моментом для рынка ИИ. Стоимость обработки миллиона токенов контекста теперь стала публичной и недостижимой для конкурентов, которые ранее позиционировали длинный контекст как премиум-услугу. DeepSeek фактически обнулила барьер входа для разработчиков, предложив открытые модели с рекордными параметрами и минимальной стоимостью. В ближайшие месяцы рынок отреагирует на это предложение, и, вероятно, западные игроки будут вынуждены пересматривать свои стратегии ценообразования.
Релиз DeepSeek V4 — это не просто новый шаг в гонке ИИ, а демонстрация стратегического преимущества китайских разработчиков. Пересобрав механизм внимания и предложив открытые модели с рекордными параметрами, DeepSeek не только обнулила стоимость длинного контекста, но и бросила вызов западным лидерам. Теперь рынок ждёт реакции: либо западные игроки ускорят снижение цен, либо потеряют долю на рынке в пользу более доступных решений. В любом случае, эпоха «премиального» длинного контекста закончилась — и это только начало новой фазы конкуренции.
Владимир Платонов