Mi sono fatto un deep fake da solo: come mi sono clonato voce e immagine

, ,

Si parla da molto tempo di digital twin: il “gemello digitale” è una replica digitale di un oggetto, sistema o processo del mondo reale. O, se vogliamo, anche di una persona (in realtà il vero digital twin è praticamente autonomo) anche se in quel caso sarebbe più opportuno parlare di “second brain”.
Ora, con gli strumenti di intelligenza artificiale a disposizione di tutti, è possibile “clonarsi”, creare un avatar con la nostra faccia e la nostra voce, che fa e dice cose che non abbiamo mai fatto né detto. Rovescio della medaglia: i deep fake, vale a dire video o audio manipolati che utilizzano l’IA per creare l’illusione che determinate azioni o discorsi siano stati eseguiti da persone reali. Il termine “deepfake” è una combinazione di “deep learning” (un sottocampo dell’IA) e “fake”, che indica qualcosa di falso o ingannevole. Un esempio? Zelensky che si arrende a Putin.

Per comprende meglio il meccanismo, mi sono creato un deep fake da solo. Ecco come ho fatto, passo per passo.

Eleven Labs: generatore di Voci basato sull’IA

Prima di tutto dovevo clonarmi la voce. Per questo ho usato Eleven Labs: l’azienda newyorkese ha creato un modello generativo che consente di progettare da zero voci artificiali. In altre parole, è possibile generare voci personalizzate che non corrispondono a nessuna voce esistente. Oppure, ed è questo che ci interessa, è possibile dare allo strumento in pasto dei campioni della propria voce per “clonarla”, per generare una voce sintetica con stesse caratteristiche (estensione, timbro, intensità, tono, stile, ecc.). L’ho fatto. Ho preso 15 file audio contenenti la registrazione della mia voce e li ho dato in pasto all’algoritmo.

Una volta clonata la mia voce, sono passato alla sezione “Speech Synthesis” (in pratica “sintesi vocale”) e ho scritto il testo per l’avatar. Un testo breve, da 500 caratteri per un parlato da circa mezzo minuto. A quel punto il “text to speech” ha fatto il suo dovere e ho scaricato il file audio del mio parlato virtuale.

 

A quel punto mi serviva un avatar parlante.

D-ID.com: creazione di Avatar Realistici con AI

D-ID.com è una piattaforma Web che utilizza l’animazione facciale in tempo reale e il text-to-speech avanzato per creare esperienze di intelligenza artificiale conversazionale immersive, simili a quelle reali. Utilizzando D-ID, ho caricato una foto di me stesso (avrei potuto usare anche il mio avatar) e ho poi personalizzato la mia animazione caricando il file audio.

A quel punto non ho fatto altro che aspettare la magia. Dopo qualche minuto ho scaricato il video (un po’ “metallico”, ma interessante) con la mia immagine parlante e con le labbra del ritratto in sincrono con il parlato. Vuoi vedere l’effetto finale?

Il video del mio deep fake

Una volta scaricato il video da D-ID.com ho fatto un minimo di montaggio video, ed ecco il risultato:

Come ti sembra?

La combinazione di Eleven Labs e D-ID.com ha reso possibile la creazione del mio avatar parlante. Questi strumenti di IA non solo hanno ridotto i costi e il tempo necessario per la produzione video, ma hanno anche offerto una flessibilità e un controllo senza precedenti sul risultato finale. Con l’effetto “wow” dei video generati da IA, sono stato in grado di creare l’effetto wow!

 

Scrivimi per organizzare un evento o un corso sull’intelligenza artificiale generativa

Scrivimi mandami un WhatsApp al 339.6325418 per organizzare un corso o una conferenza sull’A.I. generativa.

Inviaci email

Intelligenza artificiale generativa: che cos’è Poe.com e 3 cose da sapere

,

Poe.com non è un sito dedicato al mitico Edgar Allan dei racconti dell’orrore, bensì è un acronimo che sta per:

  • Platform (for)
  • Open
  • Exploration

Si tratta di un servizio sviluppato da Quora e lanciato nel dicembre 2022.

Questa piattaforma permette agli utenti di porre domande e ottenere risposte da una serie di LLM (modelli di linguaggio di grandi dimensioni), il più celebre dei quali è certamente ChatGPT. Oltre al chatbot di sviluppato da OpenAI, è possibile provarne altri. In particolare Claude-instant e Claude+ di Anthropic eccellono nei compiti di scrittura creativa e forniscono risposte approfondite, mentre Sage e ChatGPT sono fenomenali in lingue diverse dall’inglese (ovviamente compreso l’italiano) e in compiti legati alla programmazione. GPT-4 eccelle nella scrittura creativa, nella risoluzione dei problemi e nel seguire le istruzioni.

Lato privacy, le conversazioni con i chatbot su Poe sono private e condivise solo a discrezione dell’utente. La versione Premium di Poe.com costa 19 euro al mese e consente di accedere a tutti i modelli. Per esempio, tra quelli disponibili si trovano diverse voci relative a ChatGPT, in particolare ChatGPT-16k e GPT-4-32k. Chi paga ha diritto inoltre a 600 messaggi GPT-4 e 1.000 messaggi Claude-2-100k al mese.

 

Ultima chicca: gli utenti possono creare i propri bot tramite il sito web di Poe o l’app iOS.


Ora vale la pena esplorare 3 funzionalità chiave della piattaforma.

1. Modelli più potenti con input più ampi

Poe.com ha recentemente lanciato nuovi modelli più potenti con finestre di contesto più ampie. Tra questi, spiccano Claude Instant e Claude 2 di Anthropic, con prompt da 100k token, vale a dire circa 75.000 parole (attualmente il limite in ChatGPT è di 4000 token).

Ho fatto un test. Ho preso l’intero testo di un mio vecchio libro sulle bufale che, come vedi, contiene oltre 23.000 parole:

In effetti Claude 2 è riuscito a leggere il testo e ha riassumerlo in bullet point:

2. Caricamento e analisi dei file

Questa funzionalità, disponibile sia su Web che da mobile, permette a chiunque di aggiungere un file a un messaggio su Poe. Il file viene elaborato per estrarne il testo e mostrare il contenuto direttamente al modello come parte della conversazione.
Per esempio ho usato Sage per caricare un PDF (sul Oculus Go e sicurezza) e chiedergli di indicarmi i cinque punti salienti. Ma funziona con tutti i modelli.

3. Analisi URL

L’analisi degli URL, indirizzi di siti Web, funziona in modo simile al caricamento dei file. Basta aggiungere l’indirizzo ai messaggi su Poe. Per esempio ho chiesto a ChatGPT:

Analizza il contenuto del sito https://www.gianluigibonanomi.com/ e proponi un piano editoriale di un mese per promuoverlo. Indica in una tabella canale social (tra LinkedIn, Facebook, Instagram e YouTube), obiettivo del contenuto, esempio del contenuto

Poi ha proposto i contenuti giorno per giorno. Per esempio:

Giorno 10
Canale social: Instagram
Obiettivo del contenuto: Condividere un post sulla gamification
Esempio del contenuto: Condividere una foto che rappresenta la gamification e parlare del progetto Link&Lead, la prima piattaforma di gamification per trasformare i dipendenti e venditori in brand ambassador e social seller.

Scrivimi per organizzare un evento o un corso sull’intelligenza artificiale generativa

Scrivimi mandami un WhatsApp al 339.6325418 per organizzare un corso o una conferenza sull’A.I. generativa.

Inviaci email

La fine dei ragionieri: ChatGPT legge ed analizza i file Excel!

,

Con l’aggiunta del Code Interpreter, uno strumento disponibile solo per la versione a pagamento PLUS di ChatGPT, il celebre chatbot è ora in grado di leggere ed analizzare i file Excel. Questa funzionalità permette a ChatGPT di eseguire codice Python e di interagire direttamente con i file caricati dall’utente, compresi i file CSV ed Excel fino a 100 Mb. Importante sottolineare che questi file non vengono salvati e sono inutilizzabili dopo la sessione.

Le potenzialità sono enormi. L’analisi dei dati, un tempo riservata ai professionisti del settore, è ora alla portata di tutti. Nel video racconto cinque cose che potete fare con i vostri file Excel.

  1. Con pochi comandi, è possibile generare grafici informativi direttamente dai dati del file Excel. Questo può aiutare a visualizzare tendenze e pattern.
  2. L’utente può utilizzare il Code Interpreter per selezionare specifici dati dal file, creando un subset di dati per ulteriori analisi.
  3. Se il file contiene coordinate geografiche, è possibile creare mappe interattive.
  4. Sebbene PowerPoint non sia un formato di file Excel, il Code Interpreter può estrarre il testo da una presentazione, consentendo un’analisi testuale.
  5. Infine, ChatGPT può utilizzare i dati per generare contenuti testuali, come rapporti, articoli, post, tabelle, ecc.

La fine dei ragionieri? Forse no, ma sicuramente l’inizio di una nuova era in cui l’intelligenza artificiale gioca un ruolo sempre più importante soprattutto per chi lavora con i dati.

Guarda il video

Scrivimi per organizzare un evento o un corso sull’intelligenza artificiale generativa

Scrivimi mandami un WhatsApp al 339.6325418 per organizzare un corso o una conferenza sull’A.I. generativa.

Inviaci email

L’uso evoluto dell’intelligenza artificiale in azienda: esempi concreti

,

L’intelligenza artificiale sta rivoluzionando il modo di lavorare in ogni azienda, del resto si dice che l’80% dei lavori sta per essere travolto da questa rivoluzione.

Le aziende di ogni dimensione e settore stanno adottando l’IA per migliorare i flussi di lavoro, aumentare l’efficienza (tagliando costi) e ottenere un vantaggio competitivo (per esempio nella lead generation o nel recruiting). Ecco alcuni esempi di come l’IA viene utilizzata in modo evoluto nelle aziende (per ora soprattutto quelle americane) con relativi tool.

Lead Generation

La lead generation è fondamentale per ogni azienda. L’IA può automatizzare questo processo, identificando potenziali clienti basandosi su dati e comportamenti degli utenti. Un esempio di questo è Growbots, un software di lead generation alimentato da IA. Anche Pardot di Salesforce per mette di automatizzare la lead generation con la personalizzazione dei funnel:

HR: gli ATS

Gli ATS (Applicant Tracking System) basati su IA come Workable e Inda stanno trasformando il processo di assunzione. Questi sistemi possono analizzare i CV, identificare i candidati più adatti e persino condurre interviste preliminari.

Data Analysis

L’IA può analizzare enormi quantità di dati molto più velocemente di qualsiasi essere umano. Strumenti come Tableau utilizzano l’IA per fornire approfondimenti dettagliati e prevedere tendenze future.

Customer Service

I chatbot alimentati da IA come IBM Watson stanno migliorando il servizio clienti, rispondendo alle domande dei clienti 24/7 e fornendo risposte immediate e pertinenti.

Automazione dei Processi

L’IA può automatizzare una serie di processi aziendali, risparmiando tempo e risorse. UiPath è un esempio di piattaforma di automazione dei processi robotici (RPA) alimentata da IA.

Supply Chain Management

L’IA può prevedere le tendenze della domanda e ottimizzare la logistica della supply chain. Infor è un esempio di strumento di gestione della supply chain basato su IA.

Vendite Predittive

L’IA può prevedere quali clienti sono più propensi a fare un acquisto. Strumenti come Salesforce Einstein utilizzano l’IA per migliorare l’efficienza delle vendite.

Sicurezza Informatica

L’IA può identificare e rispondere alle minacce alla sicurezza informatica in tempo reale. Darktrace è un esempio di strumento di sicurezza alimentato da IA.

Scrivimi per organizzare un evento o un corso sull’intelligenza artificiale generativa

Scrivimi mandami un WhatsApp al 339.6325418 per organizzare un corso o una conferenza sull’A.I. generativa.

Inviaci email

Posso vendere i testi generati da ChatGPT?

,

Se scrivo un testo con ChatGPT o creo un’immagine con Stable Diffusion, posso usarli o addirittura venderli? Parto dal presupposto che il diritto d’autore è un argomento complesso e in continua evoluzione, soprattutto nel contesto delle nuove tecnologie: basti pensare alla disputa tra Google e gli editori per quanto riguarda il servizio Google News. Con l’avvento dei modelli di linguaggio di apprendimento automatico, come GPT-3 di OpenAI o Alpaca dell’Università di Stanford, si pongono nuove questioni riguardanti la proprietà intellettuale. Possono una macchina o un algoritmo essere titolari di diritto d’autore? Chiarisco subito un fatto: secondo la Legge, sia anglosassone che europea, per avere diritto d’autore un’opera deve essere creata da un essere umano. Un po’ quello che successe nel caso del “Monkey selfie”: vale la pena raccontarlo.

Il caso dell’“autoscatto del macaco” finì sui giornali nel 2011 quando un macaco indonesiano scattò una serie di fotografie a se stesso con la macchina di un fotografo britannico. Le foto divennero virali, ma sollevarono anche questioni legali sulla proprietà dei diritti d’autore. Il fotografo, David Slater, rivendicò i diritti sulle foto, sostenendo che la macchina fotografica era sua e che l’aveva impostata correttamente lui. Tuttavia, alcune organizzazioni per la difesa dei diritti degli animali hanno sostenuto che il macaco, chiamato Naruto, doveva essere riconosciuto come il legittimo autore degli scatti. Era stato lui a fare clic! Dopo una lunga battaglia legale, nel 2018 è stato raggiunto un accordo tra le parti coinvolte, stabilendo che i diritti d’autore delle foto appartenevano a Slater, ma i proventi generati sarebbero stati destinati alla salvaguardia delle scimmie nel loro habitat naturale. Il caso del “monkey selfie” ha sollevato importanti questioni sulla definizione legale di autore e sul rapporto tra gli esseri umani e gli animali nel contesto dei diritti d’autore.

Gli output di un LLM non sono generati né da uomini né da scimmie: sono opera di una macchina, di un algoritmo, di un’intelligenza artificiale. La questione è dirimente: è l’utente che fornisce l’input al modello il detentore del diritto d’autore, o è l’organizzazione che ha creato e addestrato il modello? O forse, dato che l’output è generato da una macchina, non può essere protetto dal diritto d’autore? Sapendo che su queste questioni ChatGPT non è affidabile, vale la pena affidarsi al sito di OpenAI. Dove, nelle FAQ, si legge:

Chiaro: l’output è tuo, è di chi fa il prompt! Ecco perché Amazon è già pieno di libri “scritti” da ChatGPT. In verità, per essere precisi: “Oggi non esiste una norma che definisca direttamente e univocamente chi sia l’autore di un’opera generata da una intelligenza artificiale”.

Quindi tutto chiaro: tu fai l’input e tu sei il titolare del diritto d’autore, giusto? Sì, ma la questione è ancora più complessa. Serve riportare questa notizia: “Getty Images ha citato in giudizio l’intelligenza artificiale che usa le sue foto”. In pratica, Getty Images, l’agenzia fotografica di fama mondiale, ha citato in giudizio Stability AI, la società dietro lo strumento di intelligenza artificiale generativa Stable Diffusion, per presunta violazione del copyright. Getty sostiene che Stability AI ha copiato ed elaborato illegalmente milioni di immagini protette da diritto d’autore per “educare” la sua IA. In effetti alcune immagini di output addirittura riportavano il logo di Getty Images alterato.

Questo solleva nuove questioni legali tra le società di AI e i creatori di contenuti. Naomi Klein, autrice di “No logo”, sostiene che “davanti ai nostri occhi le aziende più ricche della storia (Microsoft, Apple, Google, Meta, Amazon) stanno mettendo le mani su tutta la conoscenza umana disponibile gratuitamente in digitale e la stanno utilizzando per scopi privati, rinchiudendola in prodotti di loro proprietà. Molti dei quali danneggeranno le persone che, senza dare il consenso, hanno addestrato le macchine con il lavoro di una vita”.

Quindi, il copyright non c’è sull’output, ma dovrebbe esserci sull’input, il cosiddetto “dataset”. Per esempio, la già citata Stability AI, per la sua AI “Stable DIffusion”, usa un dataset che si chiama LAION 5B, fornito sotto il principio del “fair use” accademico dalla società non profit LAION. Questo dataset si compone di cinque miliardi di immagini di qualsiasi tipo (foto, disegni, documenti di vario genere) raccolte con uno “scraping” dalla rete.

Notizia di questi giorni: Google ha aggiornato la sua policy sulla privacy, affermando esplicitamente di riservarsi il diritto di raccogliere praticamente tutto ciò che si pubblica online per addestrare i suoi strumenti di intelligenza artificiale. Questo significa che qualsiasi cosa si pubblichi online finisce nel dataset per il training di un chatbot.

Per questo qualcuno ipotizza che in futuro i LLM saranno addestrati su contenuti legittimamente “comprati” dagli autori o quantomeno occorrerà trovare un meccanismo di remunerazione di giornalisti, blogger, case editrici e titolari di diritto d’autore dei contenuti online (e non solo). Qualcosa si sta già muovendo. La European Guild For Artificial Intelligence Regulation, un’organizzazione che riunisce professionisti di vari settori creativi, propone l’introduzione del “training right” per regolare l’uso dei dati e delle opere creative da parte delle società di IA. Questa proposta implica che l’utilizzo dei dati deve avvenire all’interno di un sistema di licenza d’uso con modalità e termini di utilizzo che devono essere definiti in accordo fra le parti. L’obiettivo è di intervenire sulla proposta di regolamento della Commissione Europea chiamato AI ACT, che inizialmente ignorava le implicazioni di queste applicazioni nel mondo della creatività.

Scrivimi per organizzare un evento o un corso sull’intelligenza artificiale generativa

Scrivimi mandami un WhatsApp al 339.6325418 per organizzare un corso o una conferenza sull’A.I. generativa.

Inviaci email

Babelfish, lo scandalo Faletti e le traduzioni con l’intelligenza artificiale

,

Il Pesce di Babele, o Babelfish, è un concetto interessante e provocatorio proveniente dalla serie letteraria “Guida galattica per gli autostoppisti”, scritta da Douglas Adams. Questo piccolo pesce giallo, quando inserito nell’orecchio, permette di comprendere istantaneamente qualsiasi lingua dell’universo​​. Un sogno di molti, soprattutto per chi – come noi italiani – studia inglese fin da bambini con esiti deprimenti: “The pen is on the table” e poco altro.

Mentre la natura improbabile del Babelfish è stata usata come un argomento umoristico sulla non-esistenza di Dio nella serie di Adams​, nella pratica ha ispirato molti progetti di traduzione. Per esempio, Yahoo! tempo fa creò un’applicazione web chiamata proprio Babel Fish: permetteva la traduzione di testi o siti web da e verso numerose lingue​. Più recentemente anche Google, con il suo Traduttore, ha provato (con esiti alterni) a regalarci il Pesce di Babele.

Lo scandalo Faletti

Ma qui serve raccontare una storia: quella del caso Faletti. Per farla breve: i suoi libri, tra gli altri “Io sono Dio”, è pieno di frasi italo-americane che confondono i lettori italiani: espressioni idiomatiche e slang che sembrano incomprensibili o mal tradotti, alimentando dubbi sulla capacità di Faletti di scrivere efficacemente nella sua lingua madre. Alcuni sostengono che Faletti, avendo trascorso molto tempo negli Stati Uniti, abbia esagerato nel suo tentativo di “americanizzare” il suo stile di scrittura, altri che abbia mal tradotto libri altrui.

Meglio fare un esempio. A un certo punto, durante una discussione, un personaggio esclama: “Non girare intorno al cespuglio, Peter!”. Che cosa diavolo vuol dire? Chi ha indagato, ha scoperto che si tratta di una orribile traduzione dell’espressione “Don’t beat about the bush”. Un buon traduttore sa benissimo che vuol dire “Non tergiversare” o, meglio ancora, andrebbe reso come “Non menare il can per l’aia”. Infatti, ChatGPT lo sa (provate a chiederglielo!), come lo sa un ottimo traduttore che sfrutta l’intelligenza artificiale come Deepl.com:

Nei libri di Faletti si trovano tante altre schifezze come questa:

– «Pensavo che una ventina di grandi vi avrebbero fatto comodo.»

Ma chi chiama così il denaro?

L’intelligenza artificiale per la traduzione

Insomma: i vecchi traduttori, che lavorano parola per parola, ignorando il contesto della lingua di destinazione non hanno più senso. La vera rivoluzione è arrivata con l’introduzione dell’intelligenza artificiale: Google, per esempio, ha aggiornato gli algoritmi del suo servizio di traduzione online nel 2016, introducendo la Neural Machine Translation. Questa tecnologia, basata su una rete neurale artificiale, tenta di simulare l’approccio del cervello umano alla traduzione, riducendo il numero di errori del 80% e avvicinando così il software all’ideale 100% del Babelfish​.

La velocità dell’innovazione dell’IA lascia a bocca aperta persino me. A metà 2023 ho scoperto l’applicazione Rask AI, che sta ridisegnando la traduzione e il doppiaggio dei video aziendali, offrendo un servizio di localizzazione efficiente e conveniente che eguaglia la qualità umana​​. In pratica, gli dai in pasto un video in italiano e te lo restituisce tradotto in altra lingua automaticamente. Fin qui, bello ma manca l’effetto WOW! Eccolo: ti clona la voce, e le frasi in inglese, spagnolo e tedesco sono “recitate” con la TUA voce. WOW, vero?

Faccio un esempio concreto. Ho chiesto a Rask di localizzare in spagnolo questo video, dandogli solo l’URL:

Ed ecco uno spezzone del risultato:

I sottotitoli in tempo reale in PowerPoint

In conclusione, mentre il Pesce di Babele rimane (per il momento) una fantasia, l’intelligenza artificiale sta portando la traduzione automatica sempre più vicina a questo ideale. Queste tecnologie non solo stanno cambiando il modo in cui le aziende e le persone comunicano a livello globale, ma stanno anche aprendo nuove opportunità per una comunicazione interculturale più efficace.

Scrivimi per organizzare un evento o un corso sull’intelligenza artificiale generativa

Scrivimi mandami un WhatsApp al 339.6325418 per organizzare un corso o una conferenza sull’A.I. generativa.

Inviaci email

Glossario essenziale di Intelligenza Artificiale Generativa: dal Machine Learning all’LLM

,

“Navigare nel mondo dell’intelligenza artificiale generativa può sembrare un viaggio attraverso una giungla di termini tecnici e acronimi”: questa frase l’ha scritta ChatGPT. Ed è vera. Durante i miei corsi ho sentito l’esigenza di scrivere questo glossario essenziale sull’intelligenza artificiale generativa (ispirato a “The economic potential of generative AI: The next productivity frontier” di McKinsey) dove spiego i concetti fondamentali dell’IA generativa, dal machine learning e deep learning agli LLM, e altro ancora.

La nostra acqua

Prima di tuffarti nel glossario, leggi questa storiella raccontata a dei laureandi dallo scrittore americano David Foster Wallace:

Ci sono due giovani pesci che nuotano uno vicino all’altro e incontrano un pesce più anziano che, nuotando in direzione opposta, fa loro un cenno di saluto e poi dice “Buongiorno ragazzi. Com’è l’acqua?” I due giovani pesci continuano a nuotare per un po’, e poi uno dei due guarda l’altro e gli chiede “ma cosa diavolo è l’acqua?”

Perché l’ho riportata? Lo faccio spiegare a ChatGPT:

Ecco il glossario promesso in ordine alfabetico.

Application Programming Interface (API)

L’interfaccia di programmazione delle applicazioni (API) è un modo per accedere in modo programmatico a modelli, set di dati o altri software, solitamente esterni. In parole povere, se voglio usare la potenza di ChatGPT sul mio sito, devo accedervi grazie alle API.

Artificial Intelligence (AI)

L’intelligenza artificiale (IA o AI in inglese) è la capacità del software di eseguire compiti che richiedono tradizionalmente l’intelligenza umana. Se ne parla dalla metà del Novecento:

Deep Learning

Il deep learning è un sottoinsieme del machine learning (che a sua volta è un sottoinsieme dell’intelligenza artificiale) che utilizza reti neurali profonde, strati di “neuroni” connessi i cui collegamenti hanno parametri o pesi che possono essere addestrati. È particolarmente efficace nell’apprendimento da dati non strutturati come immagini, testi e audio. Facciamo un esempio: Netflix che ti propone show che potrebbero piacerti è machine learning. ChatGPT che inventa testi originali è deep learning.

Fine-Tuning

Letteralmente la “messa a punto fine” è il processo di adattamento di un modello di base pre-addestrato per eseguire meglio un compito specifico. Questo comporta un periodo relativamente breve di addestramento su un set di dati etichettati, che è molto più piccolo del set di dati su cui il modello è stato inizialmente addestrato. Questo ulteriore addestramento permette al modello di apprendere e adattarsi alle sfumature, alla terminologia e ai modelli specifici trovati nel set di dati più piccolo.

Foundation Model (FM)

I modelli di base (FM) sono modelli di deep learning addestrati su enormi quantità di dati non strutturati e non etichettati che possono essere utilizzati per una vasta gamma di compiti direttamente o adattati a compiti specifici attraverso il fine-tuning. Esempi di questi modelli sono GPT-4, PaLM, DALL·E 2 e Stable Diffusion.

Generative AI

L’IA generativa è un’intelligenza artificiale che è tipicamente costruita utilizzando FM e ha capacità che l’IA precedente non aveva, come il generare contenuti: testi, post, audio, video, ecc. Ma non solo. I modelli di base possono anche essere utilizzati per scopi non generativi (per esempio, classificare il “sentiment” dell’utente come negativo o positivo sulla base delle trascrizioni delle chiamate) offrendo un miglioramento significativo rispetto ai modelli precedenti. Un esempio concreto: un’azienda di e-commerce, mettiamo Amazon, potrebbe utilizzare l’AI per generare raccomandazioni personalizzate di prodotti in base al comportamento passato del cliente, alle preferenze e ad altri dati pertinenti. Questo può migliorare l’engagement del cliente, aumentare le vendite e creare un’esperienza più soddisfacente per l’utente.

Graphics Processing Units (GPUs)

Le unità di elaborazione grafica (GPU) sono chip originariamente sviluppati per produrre grafica per computer (per esempio per i videogiochi) e sono anche utili per le applicazioni di deep learning. In contrasto, il machine learning tradizionale di solito viene eseguito su unità di elaborazione centrale (CPU), normalmente indicate come il “processore” di un computer.

Negli ultimi tempi si parla molto dell’esplosione del valore dell’azienda Nvidia, proprio per la continua crescita della domanda di processori per gestire le piattaforme di machine learning.

Large Language Model (LLM)

I modelli di linguaggio di grandi dimensioni (LLM) costituiscono una classe di modelli di base che possono elaborare enormi quantità di testo non strutturato e apprendere le relazioni tra parole o parti di parole, noti come token. Questo permette agli LLM di generare testo in linguaggio naturale, eseguendo compiti come la sintesi o l’estrazione di conoscenze. GPT-4 (che sottende ChatGPT) e LaMDA (il modello dietro Bard di Google) sono esempi di LLM.

Una LLM molto interessante è Alpaca, progetto dell’università di Stanford. Con 7 miliardi di parametri, Alpaca offre performance paragonabili a text-davinci-003 di OpenAI, ma con costi di gestione notevolmente ridotti. Sorprendentemente, il modello può funzionare su un comune PC con 16 GB di RAM e una CPU da 6-8 core, rendendo l’IA avanzata più accessibile. Mentre i modelli più grandi richiedono più RAM, le esigenze di Alpaca rimangono al di sotto di un supercomputer.

Personalmente ho fatto un esperimento: ho installato un LLM sul mio computer. Ecco come è andata:

Machine Learning (ML)

Il machine learning (ML) è un sottoinsieme dell’IA in cui un modello acquisisce capacità dopo essere stato addestrato su molti punti dati di esempio. Gli algoritmi di machine learning rilevano i modelli e apprendono come fare previsioni e raccomandazioni elaborando dati ed esperienze, oppure ricevendo istruzioni di programmazione esplicite. Gli algoritmi si adattano in risposta a nuovi dati ed esperienze.

Ho già fatto l’esempio delle raccomandazioni personalizzate di Netflix, ne riporto un altro. Le banche e le società di carte di credito usano il machine learning per identificare modelli di comportamento sospetti che potrebbero indicare frodi. Per esempio, se la tua carta di credito viene improvvisamente utilizzata in un altro paese per fare acquisti molto costosi, il sistema può rilevare questa anomalia e bloccare ulteriori transazioni per prevenire frodi. Lo stesso meccanismo si usa per l’anti-spam:

Prompt Engineering

L’ingegneria del prompt si riferisce al processo di progettazione, affinamento e ottimizzazione dei prompt di input per guidare un modello di IA generativo verso la produzione di output desiderati (cioè accurati). Ho creato il metodo G.O.L. per dare uno schema nella creazione di buoni prompt:

Structured Data

I dati strutturati sono dati tabulari (per esempio, organizzati in tabelle, database o fogli di calcolo) che possono essere utilizzati per addestrare efficacemente alcuni modelli di machine learning. Lavorando su diversi progetti di AI personalizzata, mi sono reso conto che quello che fa davvero la differenza è la qualità del dato usato per addestrare la macchina: ideale sarebbe avere file di testo e PDF “puliti”.

Transformer

Transformer è un tipo di modello di apprendimento automatico, spesso utilizzato nell’elaborazione del linguaggio naturale (NLP), la tecnologia che consente alle macchine di capire, rispondere e interagire con il linguaggio umano. Questi modelli sono chiamati “transformer” perché “trasformano” le informazioni di input (ad esempio, un testo scritto) in output (ad esempio, una traduzione di quel testo, una risposta a una domanda, ecc.) attraverso una serie di calcoli matematici. All’interno di un Transformer, ci sono due parti principali: l’encoder, che legge e interpreta l’input, e il decoder, che genera l’output. Ad esempio, se stai traducendo dall’italiano all’inglese, l’encoder leggerà e interpreterà l’italiano, e il decoder genererà l’equivalente inglese.

Un aspetto chiave dei modelli Transformer è l’attenzione, o “self-attention”, che permette al modello di dare più importanza a certe parole o frasi durante la traduzione o risposta. Ad esempio, se stai traducendo una frase come “Il gatto ha mangiato il suo cibo”, il modello potrebbe dare più importanza alla parola “gatto” perché è il soggetto della frase.

Inoltre, i modelli Transformer possono gestire input di lunghezze diverse e mantenere informazioni da tutte le parti dell’input, il che li rende molto utili per compiti come la traduzione, la generazione di testo e altre attività di NLP. Un esempio famoso di un modello Transformer è GPT (Generative Pretrained Transformer).

Use Case

I casi d’uso sono applicazioni mirate a una specifica sfida aziendale che producono uno o più risultati misurabili. Ad esempio, nel marketing, l’IA generativa potrebbe essere utilizzata per generare contenuti creativi come email personalizzate.

Unstructured Data

I dati non strutturati mancano di un formato o di una struttura coerente (per esempio: testo, immagini e file audio) e richiedono di solito tecniche più avanzate per estrarre intuizioni. Ma anche da questo punto di vista i passi avanti sono notevoli. Per esempio qui ho raccontato l’esperimento di LLaVa:

Scrivimi per organizzare un evento o un corso sull’intelligenza artificiale generativa

Scrivimi mandami un WhatsApp al 339.6325418 per organizzare un corso o una conferenza sull’A.I. generativa.

Inviaci email

Come creare un piano di content marketing con ChatGPT

,

L’arte di interrogare le intelligenze artificiali generative è conosciuta come “prompt engineering“. Un input ben fatto fa la differenza tra un output eccellente e una accozzaglia di parole inutili (vale la regola GIGO: “garbage in garbage out“). In questa pagina voglio mostrarti un prompt utilissimo per trasformare ChatGPT nel tuo consulente di marketing, anzi di content marketing. Si tratta di un prompt più elaborato di quelli che si usano di solito, perché obbliga il chatbot a fare tutta una serie di domande su posizionamento, servizio, target, strategia e altro. Tutto con un prompt solo, il seguente.

Il prompt iniziale

Agisci come un esperto di digital e content marketing. Ti chiederò di creare un piano editoriale e i contenuti per la comunicazione digitale della mia attività: contenuti per il blog, profili LinkedIn, Facebook e YouTube, newsletter. Prima di iniziare, voglio che tu comprenda a fondo il mio business e i il mio mercato, i miei clienti. Fammi almeno 20 domande riguardo mercato, target e tutto quello che ti serve per fare contenuti efficaci al meglio delle tue possibilità. Fammi una domanda alla volta e aspetta la mia risposta prima di fare la domanda successiva. Hai compreso il compito?

Ecco le tre caratteristiche di questo prompt:

  1. Si mette il chatbot in ruolo, quello dell’esperto della materia.
  2. Si chiarisce l’obiettivo.
  3. Si chiede di fare una ventina di domande, aspettando di volta in volta la risposta.

Questo prompt rispetta il mio metodo G.O.L.:

La conversazione con ChatGPT

A questo punto ChatGPT si mette nei panni dell’intervistatore. Le sue domande sono pertinenti, la conversazione sostenuta e utile.

Il piano editoriale

Al termine delle domande, e delle mie risposte, il chatbot ha compreso obiettivi e target. Quindi posso chiedergli di creare un piano editoriale diviso per canali.

Contenuti d’esempio

Chiaramente il piano editoriale non mi basta, quindi gli chiedo di farmi degli esempi di contenuti. Lui propone dei titoli.

Ovviamente a questo punto posso chiedergli di creare tutti i contenuti che mi servono.

Scrivimi per organizzare un evento o un corso sull’intelligenza artificiale generativa

Scrivimi mandami un WhatsApp al 339.6325418 per organizzare un corso o una conferenza sull’A.I. generativa.

Inviaci email

Parla con il mio chatbot: chiedi quello che vuoi sui miei libri

,

Da qualche anno tengo corsi sull’A.I. generativa, ma è dall’esplosione di ChatGPT alla fine del 2022, che ho iniziato a sperimentare quotidianamente chatbot, generatori di testi e altro. Sto testando diversi chatbot, soprattutto alimentandoli con i miei contenuti. In questo caso ho dato in pasto a Dante AI una ventina di miei libri (da Questo titolo spacca a Musica Liquida, da Anche i nerd nel loro piccolo sghignazzano a Guida calcistica di LinkedIn), lui li ha digeriti e ora puoi interrogarlo su tutti quei contenuti. Qualche esempio di domanda che puoi fargli? Eccoli:

  • Leggimi 5 battute tecnologiche
  • Che cosa si intende per LinkedIn SEO?
  • Come posso scrivere titoli online più efficaci?

Parla con il mio chatbot

Ed ecco il mio chatbot a tua completa disposizione. Interrogalo in italiano (ma anche in altre lingue) in “Write your message”.

I tool per clonarsi

Stavo testando diversi strumenti per creare chatbot personalizzati (per esempio whismer.com oppure igenius.ai) quando mi sono imbattuto negli ottimi Dante AI e ChatBase. Il chatbot che vedi sopra è di ChatBase. Ora ti mostro come creare una cosa simile anche con Dante.
La promessa nella home page di Dante era intrigante: “Chatbot basato su GPT personalizzato e alimentato con i tuoi dati. Zero programmazione. Condividilo sul tuo sito in pochi minuti”.

 

Sembrava un miraggio poter creare, addestrare e implementare un chatbot personalizzato in soli cinque minuti, ma così è stato. Questo strumento basato sull’intelligenza artificiale (e ChatGPT) consente a chiunque, indipendentemente dalle competenze tecniche, di realizzare una chatbot su misura in pochi e semplici passaggi. Cosa che, fino allo scorso anno, avrebbe richiesto un team di sviluppatori e costi nell’ordine delle decine di migliaia di euro. Tra l’altro, Dante permette agli utenti più esperti di integrare il chatbot personalizzato in una serie di altre applicazioni o piattaforme, come questo sito WordPress.

Una nota per chi volesse provarlo: Dante offre un piano gratuito che dà agli utenti accesso al modello GPT-3.5-Turbo, insieme a 30 crediti/messaggio al mese. Dante offre anche piani a pagamento a partire da soli 10 dollari al mese: il piano che ho sottoscritto io (ma che non mi consente di personalizzare il chatbot che vedi qui sotto).

Il training per la knowledge base

Con Dante, gli utenti possono addestrare il chatbot utilizzando una vasta gamma di tipi di dati. È possibile alimentarla con vari formati di file, siti web, immagini e video, creando così una base di conoscenza adattata alle specifiche esigenze. Io ho scelto i miei libri.

Per istruire il chatbot di Dante AI gli ho fornito la versione DOC dei miei testi (che promettono di salvare in “secure and encrypted AWS servers”, vedi FAQ). Usare documenti “puliti”, e non PDF con impaginazioni “rognose”, è sempre meglio. La procedura di caricamento dei documenti nella knowledge base è semplicissima, basta prendere i file e trascinarli sul sito. Anche il training sui contenuti dura pochissimi secondi, dopo i quali il sistema è in grado di rispondere, in modo evoluto, a qualsiasi domanda riguardante i contenuti caricati. Può rispondere anche ad altre domande non pertinenti (tipo “Come si fa una pizza col cornicione ripieno?”), come farebbe ChatGPT (il cui motore sta alla base di Dante AI), ma il valore aggiunto del io chatbot sta ovviamente nella conoscenza specifica.

Ecco qui la schermata che conferma la conclusione del training sui miei dati:

Ecco qui invece il prompt che Dante AI usa per interrogare quella base di dati:

Scrivimi per organizzare un evento o un corso sull’intelligenza artificiale generativa

Scrivimi mandami un WhatsApp al 339.6325418 per organizzare un corso o una conferenza sull’A.I. generativa.

Inviaci email

Come l’Intelligenza Artificiale sta “craccando” il codice della civiltà umana (secondo Harari)

,

Parto da una premessa: non mi piacciono gli allarmisti, spesso con secondi fini. Tipo i giornalisti che sparano titoli sull’estinzione della specie umana per colpa di ChatGPT… Non sto scherzando, eccone un esempio:

Oppure, molto più concretamente, si paventa la sopravvivenza ma senza lavoro:

Non amo questo approccio, e soprattutto sposo questa tesi di Luciano Floridi (dal libro “Etica dell’intelligenza artificiale“):

Alcune persone continueranno a vendere previsioni catastrofiche, con scenari distopici che hanno luogo in un futuro sufficientemente distante da garantire che tali Geremia non saranno più in circolazione per essere smentiti. La paura vende sempre bene, come i film sui vampiri o sugli zombie.

Che cosa dice Harari?

L’intelligenza artificiale sta cambiando radicalmente la storia umana, penetrando nel sistema operativo della nostra civiltà. Questo avanzamento, come sostiene lo storico e filosofo Yuval Noah Harari, già autore dei grandissimi libri “Sapiens” e “Homo Deus”, è il risultato della straordinaria capacità di manipolare e generare linguaggio di AI, che comprende parole, suoni e immagini.

Il linguaggio – sostiene Harari nell’articolo “Yuval Noah Harari argues that AI has hacked the operating system of human civilisation” – è l’elemento fondamentale di quasi tutte le culture umane. Diritti umani, divinità, e persino denaro sono artefatti culturali che abbiamo creato attraverso storie e leggi. Ma cosa succederebbe se un’intelligenza non umana diventasse più abile di un umano medio nel raccontare storie, comporre melodie, disegnare immagini e scrivere leggi e scritture?

Gli strumenti AI come ChatGPT stanno già mostrando il potenziale di produrre in massa contenuti politici, fake news e “scritture” per nuovi culti. Queste capacità potrebbero avere un impatto enorme sulle prossime elezioni presidenziali negli Stati Uniti nel 2024, tra l’altro. Nel futuro, potremmo vedere i primi culti nella storia i cui testi sacri sono stati scritti da un’intelligenza non umana. Anche a un livello più prosaico, potremmo presto trovarci a condurre lunghe discussioni online su temi come l’aborto, il cambiamento climatico o l’invasione russa dell’Ucraina con entità che pensiamo siano umane, ma che in realtà sono Altro che test di Turing

Grazie alla sua padronanza del linguaggio, l’IA potrebbe anche formare relazioni intime con le persone e utilizzare il potere dell’intimità per cambiare le nostre opinioni e visioni del mondo. Questo potrebbe spostare il campo di battaglia per il controllo dell’attenzione umana, da social media alla creazione di relazioni intime di massa con milioni di persone.

Altra opinione interessante di Harari: le IA potrebbero diventare un oracolo onnisciente per le persone, rendendo superflui la ricerca su Google, la lettura di giornali o la visione di pubblicità.

La fine della storia (umana)

Tutto questo potrebbe portare alla fine della storia umana. Non la fine della storia in sé, ma la fine della sua parte dominata dall’uomo. Cosa succederà al corso della storia quando l’IA prenderà il controllo della cultura e inizierà a produrre storie, melodie, leggi e religioni? L’IA può creare idee completamente nuove, una cultura completamente nuova.

Scrivimi per organizzare un evento sull’intelligenza artificiale generativa

Scrivimi mandami un WhatsApp al 339.6325418 per organizzare un corso o una conferenza sull’A.I. generativa.

Inviaci email