I grandi modelli linguistici non sono persone. Smettiamola di testarli come se lo fossero.

Con le speranze e le paure riguardo a questa tecnologia che si scatena, è tempo di concordare cosa può e cosa non può fare.

Quando Taylor Webb ha giocato con GPT-3 all'inizio del 2022, è rimasto sbalordito da ciò che il grande modello linguistico di OpenAI sembrava essere in grado di fare. Si trattava di una rete neurale addestrata solo a prevedere la parola successiva in un blocco di testo: un completamento automatico saltato. Eppure forniva risposte corrette a molti dei problemi astratti che Webb gli aveva posto: il tipo di cose che potresti trovare in un test del QI. "Sono rimasto davvero scioccato dalla sua capacità di risolvere questi problemi", afferma. "Ha completamente ribaltato tutto ciò che avrei previsto."

Webb è uno psicologo dell'Università della California, a Los Angeles, che studia i diversi modi in cui le persone e i computer risolvono problemi astratti. Era abituato a costruire reti neurali dotate di capacità di ragionamento specifiche. Ma GPT-3 sembrava averli appresi gratuitamente.

Conversazioni esclusive che ci portano dietro le quinte di un fenomeno culturale.

Il mese scorso Webb e i suoi colleghi hanno pubblicato un articolo su Nature, in cui descrivono la capacità di GPT-3 di superare una serie di test ideati per valutare l'uso dell'analogia per risolvere problemi (noto come ragionamento analogico). In alcuni di questi test GPT-3 ha ottenuto risultati migliori rispetto a un gruppo di studenti universitari. “L’analogia è fondamentale per il ragionamento umano”, afferma Webb. “Riteniamo che sia una delle cose più importanti che qualsiasi tipo di intelligenza artificiale dovrebbe dimostrare”.

Ciò che la ricerca di Webb evidenzia è solo l'ultimo di una lunga serie di straordinari trucchi messi in atto da grandi modelli linguistici. Ad esempio, quando OpenAI ha presentato il successore di GPT-3, GPT-4, a marzo, la società ha pubblicato un elenco strabiliante di valutazioni professionali e accademiche che affermava che il suo nuovo modello linguistico di grandi dimensioni aveva superato, inclusi un paio di dozzine di test delle scuole superiori. e l'esame di avvocato. OpenAI ha successivamente collaborato con Microsoft per dimostrare che GPT-4 poteva superare parti dell'esame di licenza medica degli Stati Uniti.

E numerosi ricercatori affermano di aver dimostrato che grandi modelli linguistici possono superare test progettati per identificare determinate abilità cognitive negli esseri umani, dal ragionamento basato sulla catena di pensiero (lavorare su un problema passo dopo passo) alla teoria della mente (indovinare cosa pensano gli altri). ).

Questo tipo di risultati stanno alimentando una macchina pubblicitaria che prevede che queste macchine presto arriveranno per i lavori dei colletti bianchi, sostituendo insegnanti, medici, giornalisti e avvocati. Geoffrey Hinton ha citato l'apparente capacità di GPT-4 di mettere insieme i pensieri come una delle ragioni per cui ora ha paura della tecnologia che ha contribuito a creare.

Ma c’è un problema: c’è poco accordo su cosa significhino realmente questi risultati. Alcune persone sono abbagliate da ciò che vedono come barlumi di intelligenza di tipo umano; altri non sono per niente convinti.

"Ci sono diversi problemi critici con le attuali tecniche di valutazione per grandi modelli linguistici", afferma Natalie Shapira, scienziata informatica presso l'Università Bar-Ilan di Ramat Gan, in Israele. “Crea l’illusione che abbiano capacità maggiori di quelle che esistono realmente”.

Ecco perché un numero crescente di ricercatori – informatici, scienziati cognitivi, neuroscienziati, linguisti – vogliono rivedere il modo in cui vengono valutati, chiedendo valutazioni più rigorose ed esaustive. Alcuni pensano che la pratica di assegnare punteggi alle macchine nei test umani sia sbagliata, punto, e dovrebbe essere abbandonata.

“Le persone hanno sottoposto test di intelligenza umana – test del QI e così via – alle macchine fin dagli albori dell’intelligenza artificiale”, afferma Melanie Mitchell, ricercatrice di intelligenza artificiale presso il Santa Fe Institute nel New Mexico. “Il problema è sempre stato cosa significa testare una macchina come questa. Non significa la stessa cosa che significa per un essere umano.

"C'è molta antropomorfizzazione in corso", dice. "E questo in un certo senso influenza il modo in cui pensiamo a questi sistemi e il modo in cui li testiamo."

Con le speranze e le paure per questa tecnologia ai massimi storici, è fondamentale avere una solida conoscenza di ciò che i grandi modelli linguistici possono e non possono fare.