Cosa vuol dire che il sistema alla base di o1 è l’apprendimento per rinforzo?

Questa branca del machine learning è alla base dei "ragionamenti" della nuova famiglia di modelli sviluppata da OpenAI

13/09/2024 di Enzo Boldi

Non è solo in grado di ragionare come un essere umano, ma è anche in grado di sbagliare come un essere umano. Ed è anche capace – almeno questo dovrebbe essere il principio – di imparare dai propri errori. La famiglia di modelli o1 sviluppati e lanciati sul mercato (solo per gli utenti abbonati) da OpenAI non è perfetta. O, almeno, non lo è per il momento. Al di là della lentezza (in termini temporali) nel presentare le risposte alle query/prompt degli utenti, questo modello di linguaggio ancora commette molti errori che, per stessa ammissione dell’azienda di Sam Altman, sono di gran lunga maggiori (in termini numerici) rispetto a GPT-4o. Ma questo sistema è destinato a migliorare con il tempo, visto che questa tecnologia si basa sul concetto di “apprendimento di rinforzo”.

LEGGI ANCHE > OpenAI ha ufficialmente lanciato la sua intelligenza artificiale in grado di ragionare

Come abbiamo raccontato in un precedente articolo – citando un recentissimo documento ufficiale di OpenAI in cui si parla dei pregi e difetti di o1 -, questo modello è ancora vittima di molte allucinazioni e, spesso e volentieri, fornisce delle risposte sbagliate per non ammettere di non essere in grado di rispondere a determinati comandi. Ma coma farà mai a migliorare e diventare una soluzione AI affidabile per quel che riguarda, almeno, la matematica e le scienze?

Apprendimento di rinforzo alla base di OpenAI o1

La risposta arriva da una tecnica di machine learning che dovrebbe rappresentare il fiore all’occhiello della nuova famiglia di modelli sviluppati da OpenAI. Si parla, infatti, di apprendimento di rinforzo con feedback umano (Reinforcement Learning with Human Feedback) che – con il passare del tempo – consentirà a o1 di migliorare non solo le sue risposte – eliminando il più possibile eventuali errori -, ma anche la sua capacità di ragionamento.

«La famiglia di modelli linguistici di grandi dimensioni o1 è addestrata con l’apprendimento per rinforzo per eseguire ragionamenti complessi […] Attraverso l’addestramento, i modelli imparano a perfezionare il loro processo di ragionamento, a provare diverse strategie e a riconoscere i propri errori». 

Il più classico dei “sbagliando si impara”. Più che nelle risposte più simili al ragionamento umano (“errare humanum est”), questa capacità di apprendimento partendo dalla base dei propri errori rende questa famiglia di modelli di linguaggio AI molto simile a ciò che fa l’essere umano. E questo non riguarda solamente la risposta finale, ma tutto il processo di ragionamento necessario per replicare a una query. Questo è il principio della tanto temuta AI generale a cui, probabilmente, ci stiamo avvicinando.

Share this article
TAGS