Gemini 2.5 Computer Use Agen AI untuk Navigasi Web & Aplikasi
- Rita Puspita Sari
- •
- 18 Okt 2025 20.06 WIB

Ilustrasi Gemini 2.5 Computer Use Model
Artificial Intelligence (AI) terus berkembang pesat, dan kini Google kembali memperluas batas kemampuannya dengan menghadirkan Gemini 2.5 Computer Use Model sebuah inovasi yang memungkinkan AI berinteraksi langsung dengan komputer seperti manusia. Model ini tidak hanya mampu “memahami” antarmuka visual, tetapi juga bisa mengklik, mengetik, menggulir, bahkan mengisi formulir secara otomatis.
Teknologi ini kini tersedia dalam versi pratinjau (preview) melalui Gemini API, dan dapat diakses lewat Google AI Studio maupun Vertex AI. Dengan hadirnya model ini, Google membuka babak baru dalam dunia pengembangan AI agen cerdas (intelligent agents) yang benar-benar bisa “mengoperasikan” komputer, bukan sekadar menganalisis data.
Latar Belakang Peluncuran: Dari Ide ke Implementasi
Beberapa waktu lalu, Google telah mengumumkan visinya untuk menghadirkan kemampuan “komputer cerdas yang bisa bertindak” ke tangan para pengembang. Melalui Gemini API, visi itu kini menjadi nyata dengan lahirnya Gemini 2.5 Computer Use Model, model lanjutan dari Gemini 2.5 Pro yang telah dikenal karena kecanggihan pemahaman visual dan penalarannya.
Dengan teknologi ini, Google ingin menghadirkan agen AI yang bisa berinteraksi dengan antarmuka pengguna (UI) secara langsung, layaknya seorang operator manusia. AI tidak hanya mampu membaca teks atau data yang terstruktur, tetapi juga memahami tampilan layar, menafsirkan elemen visual, dan menjalankan tindakan logis berdasarkan konteks yang ada di layar komputer atau ponsel.
Dalam berbagai uji coba internal, model ini bahkan mengungguli teknologi sejenis dalam hal kecepatan respon dan akurasi, baik untuk tugas berbasis web maupun mobile. Hal ini menegaskan bahwa Gemini 2.5 Computer Use Model bukan sekadar eksperimen, melainkan tonggak baru dalam pengembangan AI berbasis tindakan (action-driven AI).
Mengapa Diperlukan Model Seperti Ini?
Selama ini, sebagian besar AI berinteraksi dengan perangkat lunak menggunakan API terstruktur — semacam “jembatan data” yang menghubungkan dua sistem. Namun, banyak aplikasi di dunia nyata tidak memiliki API terbuka, atau masih bergantung pada antarmuka grafis (GUI) yang dirancang untuk manusia.
Contohnya sederhana:
- Mengisi formulir pendaftaran online,
- Mengklik tombol “Kirim”,
- Memilih opsi di menu dropdown,
- atau login ke akun menggunakan halaman web.
Untuk melakukan hal-hal tersebut, manusia biasanya menggunakan mouse dan keyboard. Dan inilah celah yang selama ini membatasi AI: model tidak bisa melakukan tindakan seperti itu secara langsung.
Nah, Gemini 2.5 Computer Use Model hadir untuk mengatasi keterbatasan tersebut. Ia memungkinkan AI menavigasi dan berinteraksi dengan antarmuka digital seperti manusia, membuka peluang bagi agen AI yang lebih praktis, fleksibel, dan bermanfaat di dunia nyata.
Dengan kemampuan ini, agen AI dapat digunakan untuk berbagai skenario:
- Otomatisasi pengujian aplikasi (UI Testing),
- Pengisian formulir administratif,
- Pemantauan sistem web,
- atau bahkan membantu pengguna menjalankan tugas kompleks di komputer.
Cara Kerja Gemini 2.5 Computer Use Model
Untuk menjalankan kemampuannya, Gemini 2.5 Computer Use Model menggunakan fitur baru bernama computer_use di dalam Gemini API.
Fitur ini bekerja dalam bentuk loop (proses berulang), sehingga AI dapat terus menyesuaikan tindakannya berdasarkan hasil dari setiap langkah.
Berikut penjelasan alur kerjanya:
-
Input Awal Diterima
Model menerima beberapa jenis input:- Permintaan pengguna (user request),
- Tangkapan layar (screenshot) dari halaman atau aplikasi yang sedang digunakan,
- dan riwayat tindakan sebelumnya (action history).
- Pengembang juga dapat menentukan fungsi UI mana yang ingin diaktifkan atau dinonaktifkan.
-
Analisis dan Pengambilan Keputusan
Setelah menerima input, model menganalisis tampilan antarmuka dan menentukan tindakan terbaik untuk dilakukan. Misalnya, klik tombol tertentu, isi kolom teks, atau gulir halaman. -
Konfirmasi Pengguna
Jika tindakan yang diminta berisiko tinggi model akan meminta konfirmasi dari pengguna sebelum melanjutkan. -
Eksekusi dan Evaluasi Ulang
Setelah tindakan dijalankan, sistem akan mengambil tangkapan layar terbaru dan URL terkini, lalu mengirimkannya kembali ke model. Siklus ini diulang hingga tugas selesai, terjadi kesalahan, atau interaksi dihentikan oleh pengguna atau sistem keamanan.
Menariknya, meski saat ini model lebih dioptimalkan untuk browser web, ia juga menunjukkan performa kuat pada antarmuka mobile (smartphone dan tablet). Namun, Google menyebutkan bahwa model ini belum difokuskan untuk kontrol sistem operasi desktop seperti Windows atau macOS.
Performa dan Hasil Pengujian
Kinerja Gemini 2.5 Computer Use Model telah diuji melalui berbagai tolok ukur (benchmark) oleh tim internal Google dan pihak eksternal seperti Browserbase.
Hasilnya, model ini berhasil:
- Mengungguli alternatif terkemuka di pasar dalam pengujian kontrol web dan mobile,
- Menunjukkan kualitas tertinggi untuk pengendalian browser,
dan mencapai waktu respon (latency) terendah di antara model sekelasnya. - Salah satu tolok ukur utama yang digunakan adalah Online-Mind2Web, sebuah framework yang mengukur kemampuan AI dalam memahami dan menavigasi halaman web kompleks.
Dengan hasil ini, Google semakin yakin bahwa model barunya dapat digunakan secara luas, baik oleh pengembang aplikasi komersial, peneliti AI, maupun perusahaan yang ingin meningkatkan efisiensi kerja menggunakan agen cerdas.
Keamanan Sebagai Prioritas Utama
Kemampuan AI untuk “mengendalikan komputer” tentu membuka peluang besar, tetapi juga menimbulkan risiko baru. Google menyadari bahwa tanpa pengamanan yang tepat, AI seperti ini bisa disalahgunakan — baik secara sengaja maupun tidak.
Oleh karena itu, Google menerapkan pendekatan Safety by Design, yaitu membangun sistem dengan keamanan tertanam sejak tahap awal pengembangan.
Ada tiga risiko utama yang diidentifikasi:
- Penyalahgunaan oleh pengguna, misalnya memerintahkan AI untuk melakukan tindakan ilegal.
- Perilaku tak terduga dari model, seperti salah menafsirkan perintah.
- Serangan eksternal, seperti prompt injection atau scam di situs web.
Untuk mengatasi hal itu, Google menyematkan lapisan keamanan (safety guardrails) langsung di dalam model dan API-nya. Beberapa di antaranya meliputi:
-
Per-Step Safety Service
Layanan keamanan di luar model yang menilai setiap tindakan sebelum dijalankan. Sistem ini akan memblokir atau menghentikan perintah jika dinilai berisiko tinggi atau tidak aman. -
System Instructions
Pengembang dapat mengatur perilaku agen agar selalu meminta konfirmasi pengguna sebelum menjalankan tindakan penting, misalnya pembelian online atau penghapusan data.
Selain dua fitur utama ini, Google juga menyediakan panduan keamanan dan praktik terbaik bagi para pengembang agar sistem yang mereka buat benar-benar aman digunakan publik.
Contoh tindakan yang dikontrol oleh sistem keamanan antara lain:
- Upaya mengubah sistem tanpa izin,
- Upaya mengakses data sensitif,
- Melewati CAPTCHA,
- atau mengendalikan perangkat medis.
Google juga mengingatkan bahwa meskipun sistem ini memiliki banyak pengaman, pengembang tetap wajib melakukan pengujian mendalam sebelum merilis produk berbasis model ini ke publik.
Penerapan di Dunia Nyata
Sebelum dirilis ke publik, beberapa tim internal Google telah lebih dulu mengimplementasikan model ini dalam proyek nyata. Hasilnya cukup signifikan: proses pengujian antarmuka pengguna (UI testing) menjadi jauh lebih cepat dan efisien.
Beberapa proyek yang sudah menggunakan model ini antara lain:
- Project Mariner, sebuah inisiatif internal untuk pengujian otomatis berbasis AI,
- Firebase Testing Agent, alat bantu pengembang aplikasi mobile,
serta AI Mode dalam Google Search, yang menggunakan agen cerdas untuk memahami dan menjalankan perintah pengguna dengan konteks visual.
Penggunaan internal ini membuktikan bahwa Gemini 2.5 Computer Use Model bukan sekadar konsep futuristik, melainkan solusi nyata yang telah membantu mempercepat siklus pengembangan perangkat lunak di ekosistem Google.
Cara Mencoba dan Mengembangkan Sendiri
Google membuka akses pratinjau publik (public preview) untuk Gemini 2.5 Computer Use Model. Pengembang dapat mulai mencobanya melalui Gemini API di Google AI Studio atau Vertex AI.
Ada tiga cara utama untuk memulai:
- Coba Langsung di Browserbase
Pengembang dapat menguji kemampuan model melalui demo interaktif yang disediakan oleh Browserbase, untuk melihat bagaimana AI melakukan navigasi dan interaksi pada UI nyata. - Mulai Membangun Proyek Sendiri
Google menyediakan panduan dan dokumentasi resmi untuk membuat agen AI menggunakan Playwright secara lokal, atau di cloud dengan Browserbase. Untuk pengguna perusahaan, dokumentasi khusus dapat ditemukan di Vertex AI Docs. - Bergabung dengan Komunitas Pengembang
Google mendorong para pengembang untuk berbagi ide, pengalaman, dan masukan melalui Developer Forum, agar pengembangan teknologi ini dapat berkembang secara kolaboratif dan bertanggung jawab.
Dengan hadirnya Gemini 2.5 Computer Use Model, Google tidak hanya menciptakan AI yang bisa berpikir, tetapi juga AI yang bisa bertindak.
Model ini membuka peluang baru di berbagai bidang dari otomasi kantor, layanan pelanggan, pengujian perangkat lunak, hingga pengelolaan sistem berbasis web.
Dengan langkah inovatif ini, Google sekali lagi membuktikan bahwa masa depan AI bukan hanya tentang kecerdasan, tetapi juga tentang kemampuan untuk benar-benar bekerja seperti manusia, secara aman dan efisien.