Non solo LLM americani: provo il chatbot cinese DeepSeek

La nuova guerra fredda

Stiamo assistendo a una guerra fredda. Non più quella USA-URSS (quella è ormai calda, dato quanto sta succedendo in Ucraina), bensì a una sfida a distanza sempre tra gli americani e, questa volta, i cinesi. Non si parla di Taiwan, né della Corea del Nord, bensì della sfida riguardo l’intelligenza artificiale.

Gli Stati Uniti e la Cina sono entrambi leader nello sviluppo dell’IA, ma hanno approcci molto diversi. I primi hanno adottato un approccio guidato dal mercato, con le aziende private che sono all’avanguardia nella ricerca e nello sviluppo (vedi OpenAI, ma non solo). La Cina, d’altra parte, ha adottato un approccio dall’alto verso il basso, con il governo che svolge un ruolo importante nello sviluppo dell’IA.

Ci sono una serie di ragioni per cui l’IA è così importante nella nuova Guerra Fredda. Innanzitutto, l’IA ha il potenziale per aumentare la crescita economica. Secondo le stime, l’IA potrebbe aggiungere 15,7 trilioni di dollari all’economia globale entro il 2030. Questa crescita potrebbe aiutare gli Stati Uniti o la Cina a ottenere un vantaggio significativo sull’altro. In secondo luogo, l’IA ha applicazioni militari: potrebbe essere utilizzata per sviluppare armi autonome, cosa che potrebbe cambiare la natura della guerra. Potrebbe anche essere utilizzata per migliorare la raccolta e l’analisi delle informazioni. In terzo luogo, l’IA ha implicazioni sociali: potrebbe essere utilizzata per migliorare l’assistenza sanitaria e l’istruzione. O per sviluppare nuove forme di media e intrattenimento.

La corsa all’IA è ancora agli inizi e non è chiaro chi ne uscirà vincitore. Tuttavia, una cosa è chiara: la competizione tra Stati Uniti e Cina per la supremazia dell’IA avrà implicazioni di vasta portata per il futuro, ed è appena iniziata. Dopo alcuni mesi in cui si parlava solo di prodotti americani (con qualche eccezione, vedi il chatbot francese Le Chat di Mistral), ecco negli ultimi giorni del 2024 esplodere l’interesse per DeepSeek, chatbot cinese di ultimissima generazione.

Cos’è DeepSeek?

DeepSeek è un’azienda cinese di intelligenza artificiale con sede a Hangzhou, fondata e sostenuta dall’hedge fund cinese High-Flyer. Nata nel maggio 2023, DeepSeek si è rapidamente affermata nel panorama dell’IA, con l’obiettivo di sviluppare un’intelligenza artificiale generale. I suoi Large Language Model (LLM) open source competono con i modelli più avanzati, come quelli di Qwen e OpenAI. La rapida ascesa di DeepSeek è testimoniata dal crescente interesse della comunità AI e dalle discussioni sulle sue potenzialità (vedi Reddit).

Le radici di DeepSeek affondano nel 2015, quando tre ingegneri dell’Università di Zhejiang fondarono High-Flyer. L’hedge fund utilizzava il machine learning per il trading azionario, dimostrando fin da subito una forte propensione all’innovazione tecnologica. Nel 2019, l’azienda creò High-Flyer AI, una divisione interamente dedicata alla ricerca sugli algoritmi di IA e alle loro applicazioni. Già nel 2021, tutte le strategie di High-Flyer si basavano sull’IA, un approccio che ha scatenato paragoni con Renaissance Technologies, un altro pioniere nell’applicazione dell’IA alla finanza.

Forte di questa esperienza, nell’aprile 2023, High-Flyer annunciò la creazione di DeepSeek, un nuovo ente indipendente per la ricerca sull’intelligenza artificiale generale. A differenza di High-Flyer AI, DeepSeek non si sarebbe concentrato sulle applicazioni finanziarie, ma avrebbe esplorato le potenzialità dell’IA in diversi altri ambiti.

DeepSeek V3: un salto di qualità

DeepSeek ha rilasciato diverse versioni dei suoi modelli linguistici, ma è con DeepSeek-V3, lanciato a fine 2024, che l’azienda ha segnato un importante passo avanti.

Questo modello, un Mixture-of-Experts (MoE) con 671 miliardi di parametri, si posiziona come un potenziale concorrente di Llama 3.1 e GPT40.

Come evidenziato da Alex McFarland, “i numeri raccontano una storia avvincente di efficienza. Mentre la maggior parte dei modelli di intelligenza artificiale avanzati richiede tra 16,000 e 100,000 GPU per l’addestramento, DeepSeek è riuscito a gestirne solo 2,048 in esecuzione per 57 giorni. L’addestramento del modello ha consumato 2.78 milioni di ore GPU su chip Nvidia H800, notevolmente modesto per un modello da 671 miliardi di parametri”.

Nei test di benchmark, DeepSeek-V3 ha mostrato prestazioni competitive, superando modelli come Llama 3.1 e Qwen 2.5, e avvicinandosi a GPT-4o e Claude 3.5 Sonnet. In particolare, ha ottenuto un punteggio di 88,5 nell’MMLU (Massive Multitask Language Understanding) e un 91,6 nel DROP (3-shot F1), evidenziando le sue capacità avanzate in comprensione linguistica e ragionamento quantitativo.

DeepSeek-V3 si distingue non solo per le sue capacità, ma anche per la velocità: elabora 60 token al secondo, tre volte più velocemente della versione precedente. A livello tecnico, il modello nativo ha una dimensione di 128k, ma l’hosting è limitato a una dimensione di contesto di 64k, probabilmente per ragioni di efficienza legate all’accesso limitato alle GPU da parte delle aziende cinesi.

Prodotti e servizi di DeepSeek

DeepSeek offre una gamma di prodotti e servizi basati sui suoi modelli linguistici, pensati per rispondere alle esigenze di diversi settori. Ecco alcuni test che ho fatto.

DeepSeek LLM: La famiglia di modelli linguistici di grandi dimensioni, cuore della tecnologia DeepSeek. Ho fatto diversi test con la lingua italiana, e i risultati sono buoni.

DeepSeek Coder: Un modello specializzato nella generazione di codice, in grado di automatizzare compiti di programmazione e migliorare la produttività degli sviluppatori.

Dopo aver fatto creare un quiz interattivo, posso anche testarlo:

DeepSeek Math: Un modello focalizzato sulla risoluzione di problemi matematici, con applicazioni in ambito educativo e scientifico.

Ho provato a fargli risolvere questa equazione:

Il risultato dovrebbe essere “impossibile”:

Ecco il risultato:

Un accorgimento: indicate sempre all’LLM di “ragionare passo a passo”.

DeepSeek VL: Un modello per l’elaborazione del linguaggio visivo, che apre le porte a nuove possibilità nell’analisi e nell’interpretazione delle immagini.

Ho provato a dargli un pasto un volantino:

In effetti la lettura avviene, anche se non precisa:

Attenzione, DeepSeek non ha letto correttamente immagini senza testo (era una foto di Pisa):

API: DeepSeek offre un’API simile a quella di OpenAI, che consente agli sviluppatori di integrare i suoi modelli linguistici nelle proprie applicazioni, aprendo un ventaglio di possibilità per l’innovazione.

La forza di Deepseek risiede anche nella sinergia tra i suoi prodotti. Ad esempio, DeepSeek Coder può essere integrato con DeepSeek Chat per creare assistenti virtuali in grado di generare codice in tempo reale, mentre DeepSeek Math può essere combinato con DeepSeek VL per analizzare dati visivi e risolvere problemi matematici complessi.

Le caratteristiche distintive di DeepSeek

DeepSeek si posiziona come un attore dirompente nel mercato dell’IA, sfidando i giganti del settore come OpenAI e Google. La sua strategia si basa su tre cardini.

I modelli di DeepSeek sono open source, il che significa che il codice sorgente è accessibile a tutti. Questo approccio favorisce l’innovazione, la collaborazione e la diffusione dell’IA, creando una comunità di sviluppatori e ricercatori che contribuiscono al miglioramento dei modelli. Al contrario, i modelli closed source di altre aziende limitano l’accesso al codice e il controllo sulla tecnologia.
DeepSeek-V3 ha dimostrato prestazioni competitive con i modelli più avanzati sul mercato, offrendo risultati di alto livello in diversi benchmark.
DeepSeek offre i suoi servizi a prezzi competitivi, rendendo l’IA più accessibile alle aziende, soprattutto alle startup e alle piccole e medie imprese.

La sfida di Deepseek alla Silicon Valley 9 è un elemento chiave del suo posizionamento competitivo. L’azienda si propone come un’alternativa valida ai modelli dominanti, offrendo soluzioni open source, performanti e accessibili.

Problemi e considerazioni etiche

Come tutti gli LLM, DeepSeek ha le allucinazioni:

A volte restituisce anche link non funzionanti. Qui, tranne il primo, nessun link funziona:

Oltre agli errori tecnici (cito anche feedback limitato all’utente in caso di problemi, tendenza a fornire istruzioni su come risolvere un problema invece di fornire direttamente la soluzione), DeepSeek solleva anche preoccupazioni etiche:

Essendo un’azienda cinese, DeepSeek opera sotto l’influenza del regolatore di Internet cinese, il che solleva preoccupazioni sulla potenziale censura e distorsione dei risultati del modello, soprattutto per gli utenti al di fuori della Cina che cercano prospettive equilibrate e imparziali . Questo aspetto solleva interrogativi sulla libertà di informazione e sulla possibilità di accedere a informazioni complete e non filtrate.
La politica sulla privacy di DeepSeek consente l’utilizzo dei dati degli utenti per il mantenimento e il miglioramento dei servizi, sollevando preoccupazioni sulla privacy e la sicurezza dei dati . Una maggiore trasparenza e un maggiore controllo da parte degli utenti sui propri dati sono essenziali per affrontare queste preoccupazioni.
DeepSeek-V3 ha mostrato la tendenza a identificarsi come ChatGPT e a fornire istruzioni per l’API di OpenAI, sollevando interrogativi sull’attribuzione e la trasparenza nello sviluppo dell’IA. È fondamentale garantire che i modelli di IA siano chiaramente identificati e che gli utenti siano consapevoli della loro origine e delle loro capacità.
È stato osservato che DeepSeek potrebbe essere stato addestrato su dati generati da GPT-4 . Questo solleva interrogativi sull’originalità del modello, sulle potenziali violazioni della proprietà intellettuale e sulla possibilità di perpetuare eventuali distorsioni presenti nei dati originali.

Scrivimi per organizzare un evento o un corso sull’intelligenza artificiale generativa

Scrivimi mandami un WhatsApp al 339.6325418 per organizzare un corso o una conferenza sull’A.I. generativa.

6 Gennaio 2025/0 Commenti/da Gianluigi Bonanomi