Cosa significa «Gemini 2.5 Computer Use» e come funziona

Immagine puramente indicativa
zoom_in A A
 

Gemini 2.5 Computer Use rappresenta un’evoluzione delle capacità dei modelli di intelligenza artificiale di interagire non solo tramite linguaggio, ma agendo direttamente su interfacce grafiche software. In pratica, anziché limitarsi a rispondere a testi o generare contenuti, può usare un browser come farebbe un essere umano: cliccare pulsanti, digitare testi, scorrere pagine, compilare moduli.

Il funzionamento si basa su un ciclo iterativo. All’inizio l’agente riceve come input la richiesta dell’utente, uno screenshot dello stato attuale dell’interfaccia e una cronologia delle azioni precedenti. Il modello elabora queste informazioni e decide un’azione (es. “clicca su questo bottone”, “inserisci questo testo”), che viene poi eseguita da un modulo client. Poi viene preso un nuovo screenshot e il ciclo continua finché il compito è completato o si verifica un errore.

La modalità è attualmente ottimizzata per il browser web: non è pensata per controllare applicazioni a livello del sistema operativo desktop, anche se mostra potenziale per le UI mobili. Le azioni supportate sono limitate (una quindicina circa), come digitare, trascinare, aprire nuove schede, cliccare elementi visivi. Per compiti complicati o interfacce dinamiche il modello può commettere errori.

Per usare Gemini 2.5 Computer Use, gli sviluppatori sfruttano l’API Gemini con uno strumento dedicato chiamato “computer_use”, che fa da ponte tra il modello e l’applicazione client che effettua le azioni. Si tratta di una versione in anteprima (preview), quindi non si consiglia di affidargli compiti critici senza supervisione.

Dietro questa modalità operativa sta anche un’innovazione centrale: Gemini 2.5 è un modello “thinking model”. Ciò significa che il modello fa una “riflessione interna” prima di produrre una risposta o decidere un’azione, migliorando coerenza e ragionamento su prompt complessi. Inoltre, la famiglia Gemini 2.5 comprende varianti come Pro, Flash e Flash-Lite, che offrono diversi compromessi fra capacità, latenza e costi.

In futuro, questo tipo di “agenti UI” può essere molto utile per automatizzare compiti ripetitivi su web, fare test di interfacce, estrarre informazioni in siti che non hanno API, o assistere l’utente eseguendo operazioni in autonomia (sempre con cautela, per motivi di affidabilità e sicurezza).

Nota sugli articoli del blog

Gli articoli presenti in questo blog sono generati con l'ausilio dell'intelligenza artificiale e trattano tutti gli argomenti di maggior interesse. I testi sono opinione personale, non accreditate da nessun organo di stampa e/o istituzionale, e sono scritti nel rispetto del diritto d'autore.