Китайская ИИ-модель от DeepSeek — революция в мире нейросетей?

Искусственный интеллект развивается стремительными темпами. Кажется, сегодня в этой гонке участвуют не только IT-гиганты, но даже небольшие компании, стремящиеся быть на вершине прогресса. Когда-то такие ИИ-модели, как ChatGPT от OpenAI, Google Gemini, Anthropic Claude, производили неизгладимое впечатление благодаря своим возможностям быстро реагировать практически на любые запросы пользователей. Без ошибок при этом, конечно, не обходилось. Теперь же на смену «приевшимся» нейросетям пришла разработка DeepSeek-R1 китайской компании DeepSeek, умеющая рассуждать по-настоящему и обладающая проницательностью. Во всяком случае, так утверждают ее создатели.
Китайская ИИ-модель от DeepSeek — революция в мире нейросетей?
Freepik
Так это на самом деле или нет – своим мнением поделился эксперт, кандидат физико-математических наук Дмитрий Сошников.
ДмитрийСошников
доцент института № 8 «Компьютерные науки и прикладная математика» МАИ, кандидат физико-математических наук

Так ли уникальна DeepSeek-R1, как о ней говорят?

С архитектурной точки зрения, модель не сильно отличается от других языковых моделей. Основное отличие – это подход, используемый для ее обучения.

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

«При обучении DeepSeek-R1 впервые в полной мере использовалось обучение с подкреплением для того, чтобы научить модель рассуждать логически. А как мы знаем из прошлого опыта, обучение с подкреплением дает очень хорошие результаты. Например, при обучении компьютера игре в шахматы и Go соответствующие версии на основе Alpha Zero превзошли все предыдущие подходы», – считает Дмитрий Сошников.

Эксперт также добавил, что у компании DeepSeek сейчас есть две модели:

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ
  • классическая модель DeepSeek-V3;
  • и модель с рассуждениями DeepSeek-R1: из-за нее в значительной степени и поднялся информационный шум.

«"R" означает Reasoning, рассуждения. Эту модель можно эффективно использовать в тех областях, где есть шанс логическим образом прийти к результату. Таких, как, например, решение логических задач или планирование. В более простых задачах – обработки текста, переписывания, суммаризации и так далее – намного дешевле использовать версию V3 без рассуждений. Дело в том, что процесс рассуждений требует от модели генерации огромного количества промежуточного текста до получения финального результата», – подчеркивает доцент.

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ
обучение нейросети DeepSeek R1
Freepik

Реально ли повторить успех DeepSeek-R1 и можно ли создать ее аналог в домашних условиях?

Информационный шум вокруг китайской разработки оказался настолько «громким», что в сети все чаще стал появляться вопрос о возможностях создания ее аналога в бытовых условиях. По мнению Дмитрия Сошникова, такой план трудно реализуем, буквально невозможен.

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

«В бытовых условиях создать "с нуля" что-то подобное невозможно – нужны действительно огромные вычислительные ресурсы. Оценочная стоимость обучения DeepSeek – $6 миллионов. И это только стоимость последнего этапа обучения, а вся серия экспериментов по созданию модели, безусловно, стоит еще дороже. Но важное отличие DeepSeek от всех предшественников состоит в том, что модель является открытой, и ее можно свободно использовать, в том числе для дообучения или в закрытых контурах компаний, которые беспокоятся об утечке данных. Однако даже для простого использования DeepSeek требуется кластер GPU, и запустить ее дома "на коленке" не получится», – отмечает эксперт.

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

Тем не менее, для стартапов все же есть хорошие новости. Сегодня пользователям доступны «дистиллированные» версии DeepSeek, которые хорошо функционируют на компьютерах «бытового уровня». С ними можно экспериментировать.

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

«Но необходимо понимать, что "дистиллированные" версии – это не то же самое, что оригинальный DeepSeek. Это изначально "маленькие" модели (LLaMa 8b, Gemma), которые обучили "под руководством" DeepSeek. Соответственно, качество таких моделей далеко не такое хорошее, как у оригинального DeepSeek, хотя и превосходит исходные базовые модели», – объясняет Дмитрий Сошников.

китайская нейросеть DeepSeek: как использовать
Freepik
РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

DeepSeek – друг, враг или как?

Широкий общественный резонанс вокруг разработки неизбежно порождает вопросы относительно безопасности ее применения. Безусловно, предоставление всем желающим открытого доступа к DeepSeek (кстати, из России очень удобно – можно пользоваться без VPN) – это хороший способ собрать данные.

«Однако напомню, что DeepSeek – это модель с открытыми весами, и ее можно, при желании, использовать и локально, сохраняя данные внутри компании. Поэтому никакой глобальной теории заговора на этот счет построить не получится. Что касается других возможных неприятных и непредсказуемых "побочек", то пока никакой конкретики нет», — заключает специалист.