Китайская ИИ-модель от DeepSeek — революция в мире нейросетей?
Так ли уникальна DeepSeek-R1, как о ней говорят?
С архитектурной точки зрения, модель не сильно отличается от других языковых моделей. Основное отличие – это подход, используемый для ее обучения.
«При обучении DeepSeek-R1 впервые в полной мере использовалось обучение с подкреплением для того, чтобы научить модель рассуждать логически. А как мы знаем из прошлого опыта, обучение с подкреплением дает очень хорошие результаты. Например, при обучении компьютера игре в шахматы и Go соответствующие версии на основе Alpha Zero превзошли все предыдущие подходы», – считает Дмитрий Сошников.
Эксперт также добавил, что у компании DeepSeek сейчас есть две модели:
- классическая модель DeepSeek-V3;
- и модель с рассуждениями DeepSeek-R1: из-за нее в значительной степени и поднялся информационный шум.
«"R" означает Reasoning, рассуждения. Эту модель можно эффективно использовать в тех областях, где есть шанс логическим образом прийти к результату. Таких, как, например, решение логических задач или планирование. В более простых задачах – обработки текста, переписывания, суммаризации и так далее – намного дешевле использовать версию V3 без рассуждений. Дело в том, что процесс рассуждений требует от модели генерации огромного количества промежуточного текста до получения финального результата», – подчеркивает доцент.
Реально ли повторить успех DeepSeek-R1 и можно ли создать ее аналог в домашних условиях?
Информационный шум вокруг китайской разработки оказался настолько «громким», что в сети все чаще стал появляться вопрос о возможностях создания ее аналога в бытовых условиях. По мнению Дмитрия Сошникова, такой план трудно реализуем, буквально невозможен.
«В бытовых условиях создать "с нуля" что-то подобное невозможно – нужны действительно огромные вычислительные ресурсы. Оценочная стоимость обучения DeepSeek – $6 миллионов. И это только стоимость последнего этапа обучения, а вся серия экспериментов по созданию модели, безусловно, стоит еще дороже. Но важное отличие DeepSeek от всех предшественников состоит в том, что модель является открытой, и ее можно свободно использовать, в том числе для дообучения или в закрытых контурах компаний, которые беспокоятся об утечке данных. Однако даже для простого использования DeepSeek требуется кластер GPU, и запустить ее дома "на коленке" не получится», – отмечает эксперт.
Тем не менее, для стартапов все же есть хорошие новости. Сегодня пользователям доступны «дистиллированные» версии DeepSeek, которые хорошо функционируют на компьютерах «бытового уровня». С ними можно экспериментировать.
«Но необходимо понимать, что "дистиллированные" версии – это не то же самое, что оригинальный DeepSeek. Это изначально "маленькие" модели (LLaMa 8b, Gemma), которые обучили "под руководством" DeepSeek. Соответственно, качество таких моделей далеко не такое хорошее, как у оригинального DeepSeek, хотя и превосходит исходные базовые модели», – объясняет Дмитрий Сошников.
DeepSeek – друг, враг или как?
Широкий общественный резонанс вокруг разработки неизбежно порождает вопросы относительно безопасности ее применения. Безусловно, предоставление всем желающим открытого доступа к DeepSeek (кстати, из России очень удобно – можно пользоваться без VPN) – это хороший способ собрать данные.
«Однако напомню, что DeepSeek – это модель с открытыми весами, и ее можно, при желании, использовать и локально, сохраняя данные внутри компании. Поэтому никакой глобальной теории заговора на этот счет построить не получится. Что касается других возможных неприятных и непредсказуемых "побочек", то пока никакой конкретики нет», — заключает специалист.