Superallineamento: OpenAI cerca di garantire l’allineamento della superintelligenza con l’intento umano

OpenAI ha identificato la super-intelligenza come la tecnologia più significativa e potenzialmente pericolosa che potrebbe essere sviluppata e sta sottolineando il suo allineamento con l’intento umano come una questione vitale. Mentre le attuali tecniche per allineare i sistemi di intelligenza artificiale, come l’apprendimento per rinforzo dal feedback umano, si basano sulla supervisione umana, queste tecniche non sono scalabili per la superintelligenza. OpenAI propone di sviluppare un ricercatore di allineamento automatizzato con capacità a livello umano, che possono quindi essere ampliate.

I passaggi chiave in questo processo includeranno lo sviluppo di metodi di addestramento scalabili, la convalida del modello e lo stress test della pipeline di allineamento. La formazione coinvolgerà i sistemi di intelligenza artificiale che assistono nella valutazione di altri sistemi di intelligenza artificiale (supervisione scalabile). Per la convalida, il processo include ricerche automatizzate di comportamenti problematici (robustezza) e interni (interpretabilità automatizzata). I test di stress comporteranno l’addestramento deliberato di modelli disallineati e il controllo dell’efficacia delle tecniche nel rilevare gravi disallineamenti (test contraddittorio).

OpenAI sta riunendo un team di ricercatori e ingegneri di machine learning di alto livello, dedicando a questo sforzo il 20% delle proprie risorse di calcolo nei prossimi quattro anni. L’obiettivo è risolvere le principali sfide tecniche dell’allineamento della superintelligenza entro questo lasso di tempo. Sebbene l’obiettivo sia ambizioso, c’è ottimismo dovuto a promettenti esperimenti preliminari, utili metriche di avanzamento e alla capacità di studiare empiricamente molti di questi problemi utilizzando i modelli odierni.

Ilya Sutskever e Jan Leike guideranno insieme il team, che includerà ricercatori e ingegneri di tutta l’azienda. OpenAI invita anche ricercatori e ingegneri eccezionali a unirsi a questo sforzo. Hanno in programma di condividere ampiamente le loro scoperte e mirano a contribuire all’allineamento e alla sicurezza dei modelli non OpenAI.

Il progetto di allineamento della superintelligenza andrà di pari passo con il lavoro esistente di OpenAI volto a migliorare la sicurezza dei modelli attuali, mitigare i rischi dell’IA come l’uso improprio, l’interruzione economica, la disinformazione, i pregiudizi e la dipendenza e impegnarsi con esperti interdisciplinari per considerare preoccupazioni umane e sociali più ampie.

L’implementazione pratica del The practical implementation of superallineamento superalignment come descritto da OpenAI può essere suddivisa in diversi passaggi:

 

1. Assembla un team: riunisci i migliori ricercatori e ingegneri di machine learning per lavorare sul problema. Ciò include esperti all’interno di OpenAI e nuove reclute.

2. Allocazione delle risorse: dedicare al problema una parte sostanziale delle risorse computazionali dell’organizzazione. Nel caso di OpenAI, impegneranno il 20% delle loro risorse di calcolo nei prossimi quattro anni.

3. Sviluppare un metodo di formazione scalabile: l’obiettivo è creare un ricercatore di allineamento automatizzato a livello umano. Ciò comporta la progettazione di un protocollo di formazione che possa effettivamente insegnare a un sistema di intelligenza artificiale ad allinearsi con i valori e le intenzioni umane.

4. Sistemi di intelligenza artificiale che valutano i sistemi di intelligenza artificiale (supervisione scalabile): sfruttare le capacità dei sistemi di intelligenza artificiale esistenti per valutare e fornire feedback su altri sistemi di intelligenza artificiale. Ciò contribuirà a fornire un segnale di addestramento per attività difficili da valutare per gli esseri umani.

5. Convalida del modello: una volta che il modello AI è stato addestrato, deve essere convalidato. Ciò comporta ricerche automatizzate di comportamenti problematici (robustezza) e interni problematici (interpretabilità automatizzata) per garantire l’allineamento con i valori e le intenzioni umane.

6. Test di stress della pipeline di allineamento (test contraddittorio): comporta l’addestramento deliberato di modelli disallineati e il controllo dell’efficacia delle tecniche di allineamento nel rilevare i principali disallineamenti.

7. Miglioramento iterativo: utilizzare le lezioni apprese dalla convalida del modello e dai test di stress per migliorare il metodo di addestramento e le tecniche di allineamento.

8. Coinvolgimento e trasparenza della comunità: pianificare la condivisione dei risultati con la più ampia comunità di intelligenza artificiale e apprendimento automatico, contribuendo alla sicurezza e all’allineamento dei modelli non OpenAI.

9. Considerazione dei problemi sociotecnici: accanto al lavoro tecnico, impegnarsi attivamente con esperti in varie discipline per considerare le preoccupazioni umane e sociali più ampie relative all’IA superintelligente.

10. Metrica del successo: l’obiettivo finale è fornire prove e argomenti che convincano la comunità dell’apprendimento automatico e della sicurezza che il problema dell’allineamento della superintelligenza è stato risolto. Se non viene raggiunto un alto livello di fiducia nella soluzione, i risultati dovrebbero almeno consentire alla comunità di pianificare in modo appropriato.

________________________________________________________________

https://www.asterios.it/catalogo/epimente

____________________________________________________________________