Статті

Тріумф DeepSeek: чи справді Китай виграв гонитву за штучним інтелектом?

Останній тиждень ШІ-індустрія гуде: китайський стартап DeepSeek випустив моделі штучного інтелекту V3 і R1, які майже не поступаються продуктам OpenAI, але набагато дешевші в обслуговуванні.

NVIDIA не в захваті

У понеділок акції NVIDIA впали на 17%. Компанія під керівництвом Дженсена Хуанга вважається головним вигодонабувачем від ШІ-лихоманки, оскільки виготовляє передові чіпи для навчання нейромережевих моделей. Шок зачепив котирування інших гравців ринку, зокрема Google, Microsoft, Amazon і TSMC.

Річ у тім, що DeepSeek за скромних ресурсів вдалося домогтися результатів, порівнянних із топовими LLM від OpenAI. Для навчання моделі V3 інженери витратили 2,8 млн годин роботи GPU NVIDIA H800. З урахуванням того, що оренда потужностей такого GPU становить 2 долари за годину, загальні витрати на навчання перевищили 5,6 млн доларів. Для порівняння, на тренінг GPT-4 компанія Сема Альтмана витратила понад $100 млн.

Усе стає ще цікавішим, якщо згадати, що США заборонили експорт передових чипів для навчання штучного інтелекту до Китаю (а ще до Росії, Білорусі, Ірану та низки інших країн). Прискорювачі H800 не підпадають під обмеження, але якби DeepSeek мала в розпорядженні топовий H100, витрати на створення моделі виявилися б ще нижчими.

Інша важлива відмінність китайських моделей – публікація параметрів у відкритий доступ. Будь-хто може доопрацювати модель під себе. Або запустити технологію на власному обладнанні.

Звичайних споживачів приваблює доступність. Скористатися моделлю DeepSeek-R1, яка «розмірковує», можна безплатно, тоді як аналог від OpenAI доступний лише за платною підпискою. Тому не дивно, що додаток DeepSeek злетів на першу сходинку американського App Store.

Не DeepSeek єдиним

Донедавна про DeepSeek мало хто чув. На китайському ринку блищали корпорації з бездонними бюджетами – Alibaba і Tencent. Наприклад, Alibaba Cloud випустила понад 100 моделей з відкритим вихідним кодом, зокрема Qwen2.5-1M і Qwen2.5-Instruct-1M з контекстним вікном у мільйон токенів.

Але на тлі успіху DeepSeek все частіше чути про інші стартапи з Піднебесної. Так, свіжа модель MiniMax-01 вирізняється рекордним розміром контексту – 4 млн токенів. А компанія 01.AI запропонувала високоефективну LLM під назвою Yi-Large.

Що в підсумку

Цікаво, що майже одночасно з бумом DeepSeek адміністрація Трампа спільно з OpenAI, SoftBank і Oracle анонсувала проєкт Stargate: протягом чотирьох років на створення інфраструктури для розроблення штучного інтелекту буде інвестовано приголомшливі 500 млрд доларів.

Тим часом стартап DeepSeek наочно довів, що для створення передових моделей ШІ не обов’язково витрачати величезні гроші. На цьому наголосив навіть новообраний президент США.

Є ще один висновок із цієї історії: зруйновано наратив про те, що Китай значно відстає від лідерів ШІ-індустрії. Багато експертів припускали, що Штати випереджають азіатських розробників принаймні на кілька років.

Але загалом досягнення азіатських програмістів, звісно, підуть індустрії на користь. Глава Microsoft Сатья Наделла нагадав про парадокс Джевонса: коли знаходиться спосіб більш ефективного застосування ресурсу, попит на нього не падає, а зростає. Стартапи отримають наочний приклад того, що домогтися вражаючих результатів можна і без мільярдних бюджетів. А це, зі свого боку, запустить нову хвилю замовлень топових чипів від NVIDIA та інших виробників.


Читай нас в Google News | Telegram | Facebook | Twitter

Back to top button