Китайское техно: в чем секрет успеха большой языковой модели DeepSeek

Еще в декабре китайский стартап DeepSeek в Ханчжоу представил новое поколение больших моделей DeepSeek-V3. В многочисленных тестах его производительность оказалась выше, чем у других моделей с открытым исходным кодом. В математических рассуждениях DeepSeek-V3 и вовсе оставил всех далеко позади. Телеканал CNBC сообщил: «Новая модель заставляет гудеть всю долину!», а американский фондовый рынок рухнул на триллион долларов.
Александр Грек
Александр Грек
Китайское техно: в чем секрет успеха большой языковой модели DeepSeek
Shutterstock.com
DeepSeek-V3 победил в трех из шести тестов больших языковых моделей LLM. Особенно заметны результаты в задачах на рассуждение, таких как математический тест MATH 500 (90,2%) и тесты на программирование Codeforces и SWE.

Удивительно, но, хотя производительность DeepSeek-V3 сопоставима с топовой большой моделью GPT-4o (с закрытым исходным кодом), ее разработка обошлась всего в 5,58 млн долларов, а стоимость обучения составила менее 1/20 последней. Чтобы добиться аналогичного результата, Google и OpenAI потребовалось несколько лет, миллиарды долларов и десятки тысяч самых современных графических процессоров.

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

Старт DeepSeek-V3 странным образом совпал с появлением у китайских ВВС самолета шестого поколения, который американцы сравнили с запуском СССР первого искусственного спутника. Однако по-настоящему потрясла Кремниевую долину не высокая производительность и низкая стоимость DeepSeek-V3, а новаторский дух модели. До этого считалось, что технологические прорывы свойственны США, в то время как Китай хорош только в приложениях. Еще более удивительным оказалось то, что за DeepSeek-V3 стояли не азиатские технологические гиганты типа Tencent или Ali, а скромный фонд прямых инвестиций Magic Square Quantitative, которым бессменно руководил технологический гик Лян Вэньфэн.

Секрет фирмы

Компания DeepSeek окутана тайной. Ее головной офис в Пекине занимает целый этаж, 2100 кв. м. Адрес известен, но охрана внизу не скажет даже номер этажа, нет в холле и вывески с названием. Мало того, с недавнего времени на этаже поставили дополнительную охрану. Проникнуть в DeepSeek ежедневно стремятся более ста человек, но, как правило, безуспешно. То же самое происходит с телефонами и электронной почтой: их все знают, однако связаться с сотрудниками не удается. Хотя до недавнего времени никакого ажиотажа не было.

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ
РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

«В 2023 году мне предлагали работу в этой компании, но я вообще не обратил на нее внимания, — рассказывает ведущий китайский разработчик в области ИИ. — Сейчас я был бы рад перейти туда, да кто ж предложит».

Магические квадрат

widget-interest

Лян Вэньфэн родился в 1985 году в деревне Милилинг в семье учителей начальных классов. После школы поступил в Чжэцзянский университет, где получил степень бакалавра и магистра в области информационных технологий (специальность «Машинное обучение»).

Лян Вэньфэн в 2008 году окончил Чжэцзянский университет в Ханчжоу, где изучал искусственный интеллект. Однако после вуза молодой специалист не пошел работать в крупную IT-компанию, а уехал в Чэнду, где увлекся идеями математика Джима Саймонса об алгоритмическом трейдинге. При таком подходе для анализа сделок используется изощренная математика, которая позволяет разрабатывать лучшие алгоритмы и модели для принятия решений о покупке или продаже акций и других финансовых инструментов.

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

Именно в этой области трудятся так называемые кванты — аналитики, использующие методы, взятые из области обработки сигналов, теории игр, критерия Келли азартных игр, микроструктуры рынка, эконометрики и анализа временных рядов. Это лучшие математики мира — как правило, бывшие участники международных олимпиад. Говорят, к самому Джиму Саймонсу, основателю Renaissance Technologies — компании номер один в области алгоритмического трейдинга, ушло множество теоретиков, занимающихся теорией струн. Это самая высокооплачиваемая работа, зарплаты там исчисляются миллионами долларов.

Основные фирмы, развивающие данное направление, располагались в США и Великобритании, но в Китае это был новый рынок. Через два года напряженного труда, после множества неудач алгоритмы Вэньфэня начали работать, что принесло ему около 70 млн долларов. А в 2015-м Лян вместе с однокурсниками из Чжэцзянского университета основал компанию Magic Square Quantification.

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ
РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ
искусственный интеллект, чип, рука робота
Freepik

Идея молодых людей заключалась в том, чтобы, используя свои знания в области искусственного интеллекта, создать алгоритмы, которые позволили бы им стать компанией мирового уровня, своеобразным китайским Renaissance Technologies. Всего год спустя стартап запустил первую реальную торговлю на основе ИИ, а затем перевел на эту технологию все торговые стратегии. В пиковый период высокочастотный арбитраж с использованием ИИ приносил доход в 300%! В 2021 году активы под управлением Magic Square Quantification достигли 1 трлн юаней (137 млрд долларов), сделав компанию китайским Quant-гигантом, — мечта Ляна Вэньфэня сбылась.

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

От QUANT к AGI

Торговые стратегии с ИИ требуют огромных вычислительных мощностей. В частности, по мере увеличения параметров модели растет спрос на вычислительные мощности графических процессоров. Логично, что следующим шагом Ляна стала вычислительная мощность.

В 2019 году Magic Square инвестировала 200 млн юаней (28 млн долларов) в создание вычислительного кластера ИИ Firefly One, оснащенного 1100 графическими процессорами, — Маск в это время только придумал концепцию своего кластера Tesla Dojo. Несколько месяцев спустя, когда Nvidia выпустила новейший чип A100, Вэньфэн стал первым человеком в Азиатско-Тихоокеанском регионе, получившим эту карту.

widget-interest

Ускоритель Nvidia A100 — универсальная валюта в мире искусственного интеллекта. Цена стартует с 2 млн рублей.

В 2021 году он инвестировал еще 1 млрд юаней (137 долларов) в создание Firefly II с 10 тысяч карт A100, вычислительная мощность которого была эквивалентна 760 тысяч персональных компьютеров. Площадь кластера превысила 10 баскетбольных площадок, а Лян стал самым крупным частным покупателем чипов Nvidia A100 в Азии. Эпоха больших языковых моделей LLM, требующих таких мощностей, еще не наступила, и многие считали основателя Magic Square Quantification сумасшедшим.

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ
РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

DeepSeek

Но кем-кем, а сумасшедшим Лян Вэньфэн точно не является — просто этот человек с феноменальными математическими способностями думает на много ходов вперед. И очень мало говорит. Мы точно знаем, что в июле 2023 года он основал в Ханчжоу компанию DeepSeek, основная цель которой — разработка больших языковых моделей LLM, а в идеале AGI (Artificial General Intelligence) — гипотетической формы ИИ, которая обладает способностью к обучению и решению задач аналогично человеческому интеллекту. Для чего?

Первая версия — идеалистическая. Лян хочет сделать технологию доступной и подарить ее своей стране и остальному миру, переведя тем самым Китай из подражателей в созидатели.

«30 лет мы жили в логике "Запад изобретает — Китай копирует". Но в эпоху ИИ это путь в никуда. Если не развивать оригинальные технологии, мы останемся вечными аутсайдерами, как в случае с чипами», — так звучит одна из немногих прямых цитат Ляна.

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ
логотип DeepSeek
DeepSeek

Вторая версия — практическая. Предыдущие алгоритмы перестали работать. Активы под управлением Magic Square сократились с 1 трлн юаней в 2021 году до 20 млрд в 2025-м. Прорыв DeepSeek в генеративном ИИ может революционизировать алгоритмический трейдинг. А AGI Лян рассматривает как ключ к новому уровню финансовых стратегий. Истина, как обычно, где-то по середине.

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ
РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

Работа мечты

В DeepSeek трудится около 160 человек, распределенных между двумя офисами — в Пекине и Ханчжоу. Даже если бы они все сидели в Пекине, на одного человека приходилось бы не менее 9 кв. м площади. Такой огромный офис — редкость для начинающих компаний. На самом деле там еще просторнее. На вопрос, чем занимаются в разных городах, DeepSeek отвечает по-китайски: «Пекин цветет, а Ханчжоу приносит плоды». Путаницу вносит и тот факт, что основные сотрудники DeepSeek и Magic Square Quantitative — одни и те же люди.

Стартап демонстрирует типично азиатскую смесь жесткого авторитаризма и абсолютной демократии. Лян контролирует 84,29% акций, его мнение решающее, но в компании при этом чрезвычайно непринужденная обстановка. Вэньфэн предпочитает нанимать бывших студентов со степенью магистра и опытом работы, связанным с большой языковой моделью, преимуще ственно из Пекинского университета и Университета Цинхуа.

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ
Скачивание DeepSeek в процентах по странам в первые дни
Скачивание DeepSeek в процентах по странам в первые дни
TechInsider.ru

90% команды — выпускники китайских вузов, не имевшие практики за рубежом. «Мы гениев выращиваем, а не переманиваем», — говорит Лян. «Возможно, 50 самых больших талантов в мире живут не в Китае, но мы сможем вырастить таких людей самостоятельно» — второе известное высказывание Вэньфэна на ту же тему. Интересно, что у сотрудников нет KPI, никто не отмечает время их прихода и ухода, а цели они ставят, исходя из собственных интересов.

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ
РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

С точки зрения структуры персонала DeepSeek нарушила все традиционные стандарты, нанимая главным образом молодежь (основные технические должности занимают специалисты, окончившие университет год или два назад) и ценя их способности и энтузиазм выше, чем квалификацию и опыт. Лян уверен, что студенты и выпускники вузов находятся на пике своих способностей и имеют меньше внешних ограничений, а потому лучше подходят для достижения прорывных результатов. Вэньфэн довольно щедр: зарплата в его компании вдвое выше, чем у конкурентов. Например, принимаемый на работу исследователь глубокого обучения или инженер по исследованиям сразу получает около 1,54 млн юаней (12 тысяч долларов) в год — в других местах молодым специалистам вряд ли предложат больше 800 тысяч.

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ
мужчина работает в ноутбуке
Freepik

Сам Лян Вэньфэн похож не столько на босса, сколько на гика: он придумывает алгоритмы, пишет код и занимается подбором персонала. Любой сотрудник может обратиться к нему напрямую и пообсуждать код и алгоритмы. В компании нет иерархической модели управления: если в процессе исследования возникла интересная идея, ее автор может привлечь людей для анализа и свободно использовать обширные вычислительные ресурсы для реализации.

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

«В DeepSeek все идет снизу вверх, — объясняет политику компании Лян. — Мы обычно не разделяем функции заранее, а применяем естественное разделение труда. У каждого сотрудника есть свой уникальный опыт роста, у всех имеются собственные идеи, и нам не нужно давить на людей. Если в процессе исследования кто-то сталкивается с проблемой, он приглашает коллег обсудить ее. Однако, когда идея показывает потенциал, мы также распределяем ресурсы сверху вниз».

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

Чистое искусство

С самого начала в DeepSeek заявили, что их основная миссия — исследование природы общего искусственного интеллекта. В китайской индустрии ИИ мало кто осмеливался ставить перед собой такие безумные цели. В результате в последние несколько лет, когда многие крупные производители моделей работали над привлечением пользователей и получением прибыли, Вэньфэн занимался фундаментальными исследованиями, которые пока кажутся убыточными. По мнению ученого, «инновации не полностью зависят от бизнеса, они также требуют любознательности и творческого подхода». И если раньше китайские компании были связаны коммерческой инерцией, то DeepSeek избавился от этого ограничения.

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ
DeepSeek
Dado Ruvic/Illustration/Reuters

Финансируется стартап из доходов Magic Square: 1,5% от общего портфеля инвестиций под управлением компании и 20-25% — с прибыли от превышения целевых показателей. Лян говорит, что не нуждается во внешнем финансировании, и немудрено: по оценке Bloomberg Research, стоимость DeepSeek достигает 330 млрд долларов. Эта цена почти равна общей сумме текущей оценки китайских AI Six Dragons: Baidu, Alibaba, Tencent, Huawei, Xiaomi и ByteDance, а потому от желающих инвестировать в компанию отбоя нет.

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

Например, Чжу Сяоху, управляющий партнер Jinshajiang Venture Capital, заявил, что Лян Вэньфэн изменил скептическое отношение к общему искусственному интеллекту (AGI) и, если DeepSeek откроет финансирование, он обязательно вложит средства в этот стартап, потому что очень важно «стать свидетелем рождения человеческого AGI». «Цена сейчас не имеет большого значения, главное — участвовать в этом невероятном событии», — отметил он.

«Я не смог бы найти коммерческую причину для основания DeepSeek, даже если бы вы меня попросили, — объясняет Вэньфэн. — Потому что с коммерческой точки зрения это не имеет смысла. У фунда ментальных научных исследований очень низкий коэффициент окупаемости инвестиций. Когда первые инвесторы OpenAI вкладывали туда деньги, они точно не думали о том, какую прибыль получат. Скорее, они действительно хотели этим заниматься».