ChatGPT Agent: Cosa è e Come Funziona (Demo in italiano)
Il mondo dell’intelligenza artificiale è in costante evoluzione e OpenAI continua a spingere i confini di ciò che è possibile. Oggi, siamo entusiasti di presentarvi una delle loro innovazioni più significative: ChatGPT Agent. Questa nuova capacità trasforma radicalmente il modo in cui interagiamo con l’AI, permettendo a ChatGPT non solo di “pensare” ma anche di “agire”, utilizzando un proprio computer virtuale per completare compiti complessi dall’inizio alla fine.
Immaginate di poter chiedere a ChatGPT di gestire richieste come “controlla il mio calendario e fammi un briefing sugli imminenti incontri con i clienti basandoti sulle ultime notizie”, “pianifica e acquista gli ingredienti per una colazione giapponese per quattro persone” o “analizza tre concorrenti e crea una presentazione”. Con ChatGPT Agent, tutto questo diventa realtà. L’AI è ora in grado di navigare intelligentemente i siti web, filtrare i risultati, chiedervi di accedere in modo sicuro quando necessario, eseguire codice, condurre analisi e persino consegnare presentazioni e fogli di calcolo modificabili che riassumono le sue scoperte.
Un Sistema Agentico Unificato: La Fusione di Potenza e Intelligenza
Al centro di questa nuova funzionalità c’è un sistema agentico unificato che combina tre punti di forza di precedenti scoperte:
- La capacità di Operator di interagire con i siti web.
- L’abilità di deep research di sintetizzare le informazioni.
- L’intelligenza e la fluidità conversazionale di ChatGPT.
Questo significa che ChatGPT Agent non è più limitato a una singola funzione. Può passare fluidamente dalla fase di ragionamento a quella di azione per gestire flussi di lavoro complessi, il tutto basato sulle vostre istruzioni.
Controllo Totale, Massima Flessibilità
La cosa più importante è che avete sempre il controllo. ChatGPT Agent richiede l’autorizzazione prima di intraprendere azioni significative e potete facilmente interrompere, prendere il controllo del browser o bloccare le attività in qualsiasi momento.
A partire da oggi, gli utenti Pro, Plus e Team possono attivare le nuove funzionalità agentiche di ChatGPT direttamente tramite il menu a discesa degli strumenti, selezionando la “modalità agente” in qualsiasi conversazione.
L’Evoluzione Naturale: Da Operator e Deep Research a ChatGPT Agent
In precedenza, Operator e deep research avevano punti di forza unici ma lavoravano al meglio in situazioni diverse. Operator eccelleva nell’interazione web, mentre deep research era impareggiabile nell’analisi e nella sintesi. L’integrazione di queste capacità complementari in ChatGPT, insieme all’introduzione di strumenti aggiuntivi, ha sbloccato possibilità completamente nuove. Ora, ChatGPT può interagire attivamente con i siti web – cliccando, filtrando e raccogliendo risultati più precisi ed efficienti – e potete passare naturalmente da una semplice conversazione alla richiesta di azioni dirette all’interno della stessa chat.
Un Agente che Lavora per Voi, con Voi
ChatGPT Agent è dotato di una suite di strumenti all’avanguardia:
- Un browser visuale che interagisce con il web tramite un’interfaccia grafica.
- Un browser testuale per query web più semplici basate sul ragionamento.
- Un terminale.
- Accesso diretto alle API.
Inoltre, l’agente può sfruttare i ChatGPT Connectors, permettendovi di collegare app come Gmail e Github. Ciò consente a ChatGPT di trovare informazioni pertinenti alle vostre richieste e utilizzarle nelle sue risposte. Potete anche accedere a qualsiasi sito web prendendo il controllo del browser, consentendogli di approfondire la ricerca e l’esecuzione dei compiti. Questo significa che ChatGPT può scegliere il percorso ottimale per svolgere le attività in modo più efficiente.
Tutto questo avviene utilizzando il suo computer virtuale, che preserva il contesto necessario per l’attività, anche quando vengono utilizzati più strumenti. Il modello può scegliere di aprire una pagina utilizzando il browser testuale o visuale, scaricare un file dal web, manipolarlo eseguendo un comando nel terminale e quindi visualizzare l’output nuovamente nel browser visuale.
Flussi di Lavoro Collaborativi e Iterativi
ChatGPT Agent è progettato per flussi di lavoro iterativi e collaborativi. Mentre ChatGPT lavora, potete interromperlo in qualsiasi momento per chiarire le vostre istruzioni, guidarlo verso i risultati desiderati o modificare completamente il compito. Riprenderà da dove aveva lasciato, con le nuove informazioni, senza perdere i progressi precedenti. Allo stesso modo, ChatGPT stesso può proattivamente chiedere dettagli aggiuntivi quando necessario per garantire che l’attività rimanga allineata ai vostri obiettivi.
Utilità nel Mondo Reale: Dalla Vita Quotidiana al Lavoro Professionale
Queste capacità agentiche unificate migliorano significativamente l’utilità di ChatGPT sia in contesti quotidiani che professionali.
- Al lavoro: potete automatizzare compiti ripetitivi come convertire screenshot in presentazioni modificabili, riorganizzare riunioni, pianificare e prenotare eventi aziendali, e aggiornare fogli di calcolo con nuovi dati finanziari.
- Nella vita personale: potete usarlo per pianificare e prenotare itinerari di viaggio, organizzare cene complete o trovare specialisti e fissare appuntamenti.
Le elevate capacità del modello si riflettono nelle sue prestazioni all’avanguardia (SOTA) nelle valutazioni che misurano la navigazione web e le capacità di completamento delle attività nel mondo reale. Test su benchmark come Humanity’s Last Exam, FrontierMath, DSBench e SpreadsheetBench hanno dimostrato la sua superiorità rispetto ai modelli precedenti e, in molti casi, prestazioni paragonabili o superiori a quelle umane.
Come Usare ChatGPT Agent
Attivare le nuove capacità agentiche di ChatGPT è semplice:
- Aprite una conversazione in ChatGPT.
- Dal menu a discesa degli strumenti, selezionate “modalità agente”.
- Descrivete il compito desiderato, che si tratti di condurre ricerche approfondite, creare una presentazione o presentare spese.
Mentre esegue il vostro compito, una narrazione sullo schermo vi fornirà visibilità su esattamente ciò che ChatGPT sta facendo. Potete interrompere e prendere il controllo del browser ogni volta che necessario, assicurandovi che le attività rimangano allineate ai vostri obiettivi.
ChatGPT Agent può accedere ai vostri connettori, consentendo di integrare i vostri flussi di lavoro e accedere a informazioni pertinenti e utilizzabili. Inoltre, potete programmare attività completate per ripetersi automaticamente, come la generazione di un rapporto settimanale di metriche ogni lunedì mattina.
Nuove Capacità, Nuovi Rischi e Salvaguardie
Questo lancio segna la prima volta che gli utenti possono chiedere a ChatGPT di agire sul web. Ciò introduce nuovi rischi, in particolare perché ChatGPT Agent può lavorare direttamente con i vostri dati. OpenAI ha rafforzato i controlli robusti della ricerca di Operator e ha aggiunto salvaguardie per sfide come la gestione di informazioni sensibili sul web, la più ampia portata degli utenti e l’accesso (limitato) alla rete del terminale.
È stata posta una particolare enfasi sulla protezione di ChatGPT Agent dalla manipolazione avversaria tramite prompt injection, un rischio per i sistemi agentici in generale. Gli attacchi di prompt injection sono tentativi di terzi di manipolare il comportamento dell’agente attraverso istruzioni dannose che ChatGPT Agent potrebbe incontrare sul web. Per mitigare questi rischi, ChatGPT è stato addestrato e testato per identificare e resistere a tali attacchi, e sono state implementate misure di monitoraggio e risposta rapida. La richiesta di conferma esplicita dell’utente prima di azioni con conseguenze riduce ulteriormente il rischio.
Sono state anche implementate mitigazioni per gli errori del modello:
- Conferma esplicita dell’utente: ChatGPT è addestrato a chiedere la vostra autorizzazione prima di intraprendere azioni con conseguenze nel mondo reale, come effettuare un acquisti.
- Supervisione attiva (“Watch Mode”): Alcuni compiti critici, come l’invio di email, richiedono la vostra supervisione attiva.
- Mitigazione proattiva del rischio: ChatGPT è addestrato a rifiutare attivamente compiti ad alto rischio come i bonifici bancari.
Infine, sono stati introdotti controlli aggiuntivi per limitare l’accesso ai dati da parte del modello:
- Controlli sulla privacy: con un solo clic nelle impostazioni di ChatGPT, potete eliminare tutti i dati di navigazione e disconnettervi immediatamente da tutte le sessioni web attive.
- Modalità di controllo del browser sicura: quando interagite con il web utilizzando il browser di ChatGPT (“modalità di controllo”), i vostri input rimangono privati. ChatGPT non raccoglie né memorizza i dati inseriti durante queste sessioni, come le password.
Disponibilità e Prospettive Future
ChatGPT Agent è in fase di roll-out a partire da oggi per gli utenti Pro, Plus e Team, con l’accesso esteso agli utenti Enterprise ed Education nelle prossime settimane. OpenAI sta ancora lavorando per abilitare l’accesso per l’Area Economica Europea e la Svizzera.
Sebbene ChatGPT Agent sia già uno strumento potente, è ancora nelle sue fasi iniziali. OpenAI prevede continui miglioramenti nell’efficienza, nella profondità e nella versatilità di ChatGPT Agent nel tempo, incluse interazioni più fluide man mano che la supervisione richiesta all’utente verrà ottimizzata per massimizzare l’utilità e la sicurezza.









