Guide & Tutorial

Vercel Agent Browser: Automazione Web per Agenti AI

Scopri come usare Vercel Agent Browser per l'automazione web degli agenti AI. Riduce i token del 93% rispetto a Playwright, zero config.

Cosmin-Anton Mihoc
6 min di lettura
Vercel Agent Browser: Automazione Web per Agenti AI

Indice dei contenuti

Gli agenti AI stanno diventando sempre più capaci di eseguire task complessi, ma c'era un problema: l'automazione browser. Vercel ha risolto questo problema con Agent Browser, un CLI che permette agli agenti AI di controllare il browser con un consumo di token ridotto fino al 93%.

Se hai mai provato a usare Playwright MCP con Claude Code o Cursor, sai quanto può essere frustrante. Ogni screenshot consuma oltre 15.000 token, e puoi esaurire la tua quota in poche operazioni. Agent Browser cambia completamente le regole del gioco.

Cos'è Vercel Agent Browser

Agent Browser è un tool CLI open source progettato specificamente per gli agenti AI. A differenza di Playwright che restituisce DOM completi e screenshot pesanti, Agent Browser usa un sistema di riferimenti (@e1, @e2) per identificare gli elementi interattivi, riducendo drasticamente il contesto necessario.

L'architettura è a tre livelli: un CLI velocissimo scritto in Rust per la gestione dei comandi, un daemon Node.js per il ciclo di vita del browser tramite Playwright, e un fallback Node.js quando i binari nativi non sono disponibili. Questo ti dà le performance di Rust con la compatibilità dell'ecosistema Node.

Installazione e Setup

L'installazione è incredibilmente semplice. Bastano due comandi per essere operativi:

npm install -g agent-browser
agent-browser install

Il secondo comando scarica automaticamente Chromium. Non serve configurare driver, path o dipendenze. Sei pronto a partire.

Se preferisci installare da sorgente per contribuire al progetto:

git clone https://github.com/vercel-labs/agent-browser
cd agent-browser
pnpm install && pnpm build
pnpm build:native
pnpm link --global

Il Workflow di Base

Il flusso tipico di lavoro con Agent Browser è estremamente lineare e pensato per gli LLM:

Navigazione: agent-browser open example.com apre la pagina target.

Snapshot: agent-browser snapshot -i restituisce solo gli elementi interattivi con riferimenti. Invece di ricevere migliaia di righe di HTML, ottieni qualcosa come: @e1 button "Submit", @e2 input type="email".

Azione: agent-browser click @e1 o agent-browser fill @e2 "test@example.com" esegue l'azione usando il riferimento.

Chiusura: agent-browser close termina la sessione.

Questo workflow riduce enormemente il consumo di token perché l'AI non deve processare tutto il DOM, ma solo i riferimenti essenziali.

Comandi Essenziali

Ecco i comandi che userai più spesso quando integri Agent Browser con il tuo agente AI.

agent-browser open url naviga verso un URL. agent-browser back e agent-browser forward gestiscono la cronologia. agent-browser reload ricarica la pagina corrente.

Interazione

agent-browser click @ref clicca un elemento. agent-browser dblclick @ref fa doppio click. agent-browser fill @ref "testo" pulisce il campo e inserisce il testo. agent-browser type @ref "testo" digita senza pulire. agent-browser press Enter preme un tasto. agent-browser hover @ref porta il mouse sull'elemento.

Snapshot e Dati

agent-browser snapshot -i restituisce solo elementi interattivi (consigliato). agent-browser snapshot -c output compatto. agent-browser snapshot -d 3 limita la profondità. agent-browser get text @ref estrae il testo. agent-browser get attr @ref href legge un attributo.

Screenshot e Recording

agent-browser screenshot output.png cattura la schermata. agent-browser record start demo.webm inizia una registrazione video. agent-browser record stop salva il video.

Confronto con Playwright MCP

I numeri parlano chiaro. Un test condotto su sei scenari tipici (caricamento homepage, shortening URL, visualizzazione dashboard, navigazione analytics, overview e filtri data) ha mostrato risultati impressionanti.

Playwright MCP ha consumato oltre 15.000 token per singolo screenshot. L'albero di accessibilità completo aggiunge migliaia di token per ogni elemento della pagina. Gli utenti hanno riportato di esaurire l'allocazione di cinque ore in pochi step di automazione.

Agent Browser riduce il consumo fino al 93% grazie al sistema di riferimenti compatti. L'output include solo gli elementi interattivi necessari, non l'intero DOM con tutte le proprietà.

Integrazione con Claude Code

Per usare Agent Browser con Claude Code e Vercel Skills, puoi installare la skill dedicata:

mkdir -p .claude/skills/agent-browser
curl -o .claude/skills/agent-browser/SKILL.md https://raw.githubusercontent.com/vercel-labs/agent-browser/main/skills/agent-browser/SKILL.md

Una volta installata, Claude Code saprà automaticamente quando e come usare agent-browser per le automazioni web. Questo si integra perfettamente con il Vercel Sandbox per ambienti isolati.

Uso Cloud con Browserbase

Per ambienti serverless o CI/CD dove non puoi avere un browser locale, Agent Browser supporta nativamente Browserbase e Browser Use.

Configura le variabili d'ambiente:

export BROWSERBASE_API_KEY="your-api-key"
export BROWSERBASE_PROJECT_ID="your-project-id"

Quando entrambe sono impostate, agent-browser si connette automaticamente a una sessione Browserbase invece di lanciare un browser locale. Tutti i comandi funzionano identicamente.

SDK Node.js Programmatico

Per casi d'uso avanzati, puoi usare Agent Browser come libreria JavaScript. Ecco come implementare uno screencast con iniezione di eventi:

Importi BrowserManager da agent-browser, lanci il browser in modalità headless, navighi verso l'URL desiderato. Puoi avviare uno screencast che ti restituisce frame base64 con metadati sulla viewport. L'iniezione di eventi mouse e keyboard ti permette controllo granulare.

Il daemon si avvia automaticamente al primo comando e persiste tra le chiamate successive per operazioni veloci.

Casi d'Uso Pratici

L'automazione browser per agenti AI trova applicazione in scenari sempre più comuni nello sviluppo web moderno.

Self-Verifying Agents

Un agente AI costruisce un componente frontend, poi usa agent-browser per verificare che funzioni. Apre il browser, testa l'interazione, conferma che il comportamento sia quello atteso. Se qualcosa non va, corregge e ritesta. Il ciclo di validazione avviene senza intervento umano.

Web Scraping Intelligente

Invece di scrivere selector CSS fragili, l'AI usa snapshot per capire la struttura della pagina ed estrarre dati usando i riferimenti semantici. Si adatta automaticamente a cambiamenti del layout.

Testing E2E Automatizzato

Dopo ogni deploy, l'agente esegue una suite di test usando agent-browser. I risultati vengono analizzati e riportati in linguaggio naturale.

Leggi anche

Conclusione

Vercel Agent Browser risolve uno dei problemi più frustranti dell'AI coding: l'automazione browser efficiente. Riduce il consumo di token del 93%, si installa in due comandi, e si integra nativamente con Claude Code, Cursor e altri agenti.

Se stai costruendo agenti AI che devono interagire con il web, Agent Browser è lo strumento che aspettavi. È open source, attivamente mantenuto, e progettato da chi conosce bene le esigenze degli sviluppatori.

Hai bisogno di implementare automazioni AI nel tuo progetto? Contattami per una consulenza personalizzata.

Condividi questo articolo
Hai domande? Contattami

Pronto a dare vita al tuo progetto?

Contattami per discutere della tua idea e ricevere una consulenza gratuita.

Iniziamo insieme