L’industria dell’intelligenza artificiale (IA) sta vivendo una rivoluzione senza precedenti, con modelli linguistici estesi (LLM) sempre più sofisticati che trasformano il modo in cui interagiamo con la tecnologia e accediamo alle informazioni. In questo scenario di rapida evoluzione, una nuova sfida emerge dalla Cina, con l’azienda DeepSeek che sta dimostrando come l’ingegno e la capacità di adattamento possano superare le restrizioni tecnologiche e aprire nuove frontiere nell’IA.

DeepSeek, fondata da Liang Wenfeng, ha lanciato, verso la fine del mese di gennaio, il modello R1, un LLM che nella sua variante con 671 miliardi di parametri, sembra superare ChatGPT in termini di performance. Ciò che sorprende è la rapidità con cui DeepSeek ha sviluppato questo modello, con un addestramento di soli due mesi e costi contenuti, stimati in 5,2 milioni di dollari. Questo risultato rappresenta una svolta nel settore dell’IA, dimostrando che non è necessario investire ingenti risorse per ottenere risultati eccezionali. Da qui il tonfo delle azioni di Nvidia che hanno perso circa il 23%.

Il successo della società Cinese assume un significato ancora maggiore se considerato nel contesto della “guerra fredda” dei petaflop, una non tanto velata competizione tecnologica tra Stati Uniti e Cina nel settore dell’IA. Il governo degli Stati Uniti ha imposto a Nvidia restrizioni sull’esportazione di tecnologie avanzate, nel tentativo di limitare lo sviluppo dell’IA cinese. In particolare, Nvidia, leader nella produzione di server per l’IA, non può vendere alla Cina prodotti che permettano di realizzare supercomputer conprestazioni oltre 100 petaflops con calcoli FP64 o oltre 200 petaflops con calcoli FP32 all’interno di 1178 metri cubi, questo consequenzialmente ha vietato l’esportazione di modelli di punta come A100, A100X e H100.

Per aggirare queste restrizioni, Nvidia ha sviluppato l’A800, una versione depotenziata dell’A100, caratterizzata da una velocità di interconnessione ridotta del NVLink che va da 600 GB/s a 400 GB/s (un buon 33%). Questa limitazione teoricamente avrebbe dovuto, il condizionale è d’obbligo, compromettere le prestazioni nell’utilizzo di più GPU in parallelo, ostacolando lo sviluppo di modelli IA complessi in Cina.

Tuttavia, il team di DeepSeek è riuscito a superare queste limitazioni grazie ad un utilizzo sopraffino della loro decennale bravura, tutta cinese, nel reverse-engineering, cioè il dissezionare qualunque prodotto e quindi clonarlo o, come in questo caso, andare a lavorare a livello del microcodice cosi da utilizzare le risorse a disposizione in maniera creativa, facendo ulteriormente tesoro di una profonda conoscenza dell’hardware.

Durante l’addestramento del modello, il team di DeepSeek ha riconfigurato le GPU Nvidia H800, allocando 20 dei 132 multiprocessori per la comunicazione server-to-server. In questo modo, DeepSeek ha superato i limiti di connettività imposti dalle restrizioni, accelerando le transazioni e ottimizzando le prestazioni. Inoltre, il team cinese ha implementato algoritmi avanzati di pipeline, sfruttando il linguaggio Nvidia PTX (Parallel Thread execution) probabilmente affinando ulteriormente le ottimizzazioni a livello di gestione dei processi dedicati al calcolo puro.

Questa nuova frontiera della “guerra fredda” mette in luce l’importanza dell’ingegno e della capacità di adattamento nel campo dell’IA. DeepSeek ha dimostrato che, nonostante le restrizioni tecnologiche, è possibile ottenere risultati eccezionali con un approccio innovativo. L’episodio insegna a tutti gli attori del settore che l’IA non è solo una questione di potenza bruta di calcolo, ma anche di intelligenza umana e capacità di superare gli ostacoli ottimizzando le risorse a disposizione.

Il successo di DeepSeek rappresenta una sfida per i colossi americani come Google, Amazon, Apple e Meta. Adesso la palla è nella loro metà del campo, visto che avendo investito ingenti risorse nello sviluppo di infrastrutture IA, potrebbero dover rivedere il loro approccio, privilegiando soluzioni più efficienti e sostenibili. Una cosa è certa, Il campo di battaglia nel quale si gioca la sfida per l’egemonia sull’intelligenza artificiale si riscalda sempre di più. Agli appassionati del settore ed agli addetti ai lavori non rimane che attendere l’avvento, ancora in dubbio, della tanto famigerata Intelligenza Artificiale Generale (AGI). Che lingua parlerà il nuovo nato?

_______

*Giuseppe Accardo, Pollicino Advisory & Partners