Gemini Robotics-ER 1.6 Tingkatkan Reasoning Embodied untuk Robot Autonomus

Apr 15, 2026 - 00:10
 0  3
Gemini Robotics-ER 1.6 Tingkatkan Reasoning Embodied untuk Robot Autonomus

Dalam dunia robotika, kemampuan robot untuk berpikir dan memahami lingkungan fisik adalah kunci utama agar mereka benar-benar dapat membantu dalam kehidupan sehari-hari dan berbagai industri. Tidak cukup hanya mengikuti instruksi, robot harus mampu melakukan reasoning embodied—berpikir dan bertindak berdasarkan kondisi fisik di sekitarnya.

Ad
Ad

Pada 14 April 2026, DeepMind memperkenalkan Gemini Robotics-ER 1.6, sebuah pembaruan besar pada model reasoning-first yang dirancang khusus untuk robot. Model ini menawarkan peningkatan signifikan dalam kemampuan spatial reasoning dan multi-view understanding, sehingga robot dapat memahami lingkungan mereka dengan presisi yang belum pernah ada sebelumnya. Dengan begitu, tingkat otonomi robot generasi terbaru dapat meningkat secara drastis.

Fitur Utama Gemini Robotics-ER 1.6: Reasoning Embodied dan Spatial yang Lebih Kuat

Gemini Robotics-ER 1.6 mengedepankan kemampuan reasoning yang sangat penting untuk robot, seperti pemahaman visual dan spasial, perencanaan tugas, serta deteksi keberhasilan tugas. Model ini bertindak sebagai otak tingkat tinggi yang mampu menjalankan tugas dengan mengakses berbagai alat, termasuk Google Search, model vision-language-action (VLA), dan fungsi pihak ketiga lainnya.

Dibandingkan dengan versi sebelumnya, Gemini Robotics-ER 1.6 menunjukkan peningkatan kemampuan reasoning spasial dan fisik seperti kemampuan menunjuk objek, menghitung, dan mendeteksi keberhasilan tugas. Yang paling menonjol adalah kemampuan baru baca instrumen, yang memungkinkan robot membaca berbagai alat ukur kompleks seperti pressure gauge dan sight glass. Fitur ini dikembangkan bekerja sama erat dengan Boston Dynamics, mitra DeepMind dalam pengembangan robot Spot.

Model ini kini sudah tersedia untuk pengembang melalui Gemini API dan Google AI Studio, lengkap dengan contoh penggunaan dalam Colab untuk memulai tugas reasoning embodied.

Pointing: Fondasi Reasoning Spasial Robot

Fungsi menunjuk (pointing) merupakan kemampuan dasar yang terus berkembang dalam tiap generasi model Gemini Robotics. Pointing tidak hanya digunakan untuk mendeteksi objek secara tepat, tetapi juga membantu dalam berbagai konsep penting:

  • Spatial reasoning: mendeteksi dan menghitung objek secara akurat.
  • Relational logic: membuat perbandingan, seperti menentukan objek terkecil atau memindahkan objek dari satu titik ke titik lain.
  • Motion reasoning: merencanakan lintasan dan menentukan titik cengkeraman optimal.
  • Constraint compliance: mengeksekusi instruksi kompleks, misalnya menunjuk semua objek yang cukup kecil untuk masuk ke dalam cangkir biru.

Gemini Robotics-ER 1.6 menggunakan pointing sebagai langkah antara untuk menyelesaikan tugas lebih rumit, seperti menghitung jumlah objek atau mengidentifikasi titik penting untuk penghitungan metrik yang akurat.

Dalam pengujian, model ini mampu menunjuk secara tepat jumlah palu (2), gunting (1), kuas cat (1), tang (6), dan kelompok alat kebun yang dapat dianggap sebagai satu grup atau objek terpisah. Model ini juga tidak menunjuk objek yang tidak ada, seperti gerobak dorong dan bor Ryobi. Sebaliknya, versi sebelumnya, Gemini Robotics-ER 1.5, sering salah hitung dan bahkan mengada-ada objek yang tidak ada.

Success Detection: Mesin Penggerak Otonomi Robot

Deteksi keberhasilan tugas adalah komponen penting dalam otonomi robot. Ini memungkinkan robot mengetahui kapan sebuah tugas telah selesai, sehingga dapat memutuskan apakah perlu mencoba ulang atau melanjutkan ke tahap berikutnya.

Visual understanding di robotika sangat menantang karena harus mengatasi kondisi seperti pencahayaan buruk, pandangan terhalang, dan instruksi ambigu. Selain itu, robot modern biasanya menggunakan banyak kamera, seperti kamera atas dan kamera di pergelangan tangan, sehingga model harus mampu menyatukan berbagai sudut pandang menjadi gambaran utuh secara waktu nyata.

Gemini Robotics-ER 1.6 meningkatkan kemampuan multi-view reasoning, memungkinkan robot memahami hubungan antar sudut pandang kamera secara dinamis, bahkan dalam kondisi sulit dan terhalang.

Baca Instrumen: Reasoning Visual untuk Dunia Nyata

Salah satu kemampuan paling inovatif Gemini Robotics-ER 1.6 adalah baca instrumen. Fitur ini dikembangkan untuk memenuhi kebutuhan inspeksi fasilitas industri, dimana robot seperti Spot dari Boston Dynamics dapat mengunjungi dan membaca berbagai instrumen seperti termometer, pressure gauge, dan sight glass.

Membaca instrumen membutuhkan reasoning visual kompleks: robot harus menangkap detail seperti jarum penunjuk, level cairan, batas wadah, dan tanda ukur, lalu menghubungkan semuanya secara tepat. Misalnya, pada sight glass, robot harus memperkirakan volume cairan dengan memperhitungkan distorsi perspektif kamera. Selain itu, teks satuan dan beberapa jarum pengukur dengan skala berbeda juga harus dibaca dan diintepretasikan.

"Kemampuan Gemini Robotics-ER 1.6 akan memungkinkan Spot untuk melihat, memahami, dan merespons tantangan dunia nyata secara otonom sepenuhnya," ujar Marco da Silva, Wakil Presiden dan General Manager Spot di Boston Dynamics.

Model ini menggunakan teknik agentic vision yang menggabungkan reasoning visual dengan eksekusi kode. Proses membaca instrumen dilakukan secara bertahap: memperbesar gambar untuk detail kecil, menggunakan pointing dan kode untuk memperkirakan proporsi dan interval, lalu menerapkan pengetahuan dunia nyata untuk mengartikan hasil bacaan secara akurat.

Keamanan yang Terintegrasi Dalam Gemini Robotics-ER 1.6

Keamanan menjadi prioritas utama dalam pengembangan Gemini Robotics-ER 1.6. Model ini menunjukkan kepatuhan lebih baik terhadap kebijakan keamanan dibandingkan generasi sebelumnya, terutama dalam tugas spatial reasoning yang berpotensi berbahaya.

Model ini mampu membuat keputusan lebih aman, misalnya menentukan objek yang boleh atau tidak boleh dimanipulasi berdasarkan batasan fisik seperti berat maksimum atau bahan yang tidak boleh disentuh.

Dalam pengujian mengikuti instruksi keselamatan berbasis teks dan video, Gemini Robotics-ER 1.6 meningkat secara signifikan dibandingkan pendahulunya, dengan peningkatan persepsi risiko cedera hingga 6% pada teks dan 10% pada video.

Kolaborasi untuk Masa Depan Reasoning Embodied Robotika

DeepMind mengajak komunitas robotika untuk berkolaborasi meningkatkan kemampuan Gemini Robotics-ER. Pengguna yang menemukan keterbatasan pada aplikasi khusus dapat mengirimkan 10–50 gambar berlabel yang menunjukkan kegagalan model untuk membantu pengembangan fitur reasoning yang lebih kuat di masa depan.

Dengan rilis ini, Gemini Robotics-ER 1.6 siap diakses melalui Google AI Studio, membuka peluang luas bagi pengembang dan peneliti untuk memajukan robotika otonom yang lebih cerdas dan aman.

Analisis Redaksi

Menurut pandangan redaksi, peluncuran Gemini Robotics-ER 1.6 menandai lompatan besar dalam integrasi kecerdasan buatan dengan robot fisik. Kemampuan baru seperti baca instrumen dan multi-view reasoning bukan hanya memajukan teknologi, tetapi membuka pintu untuk aplikasi industri yang selama ini sulit diotomasi, seperti inspeksi fasilitas dan pemeliharaan alat berat.

Lebih jauh lagi, peningkatan keamanan dan kepatuhan terhadap batasan fisik memperlihatkan bahwa DeepMind sangat serius dalam mengembangkan robot yang tidak hanya pintar, tapi juga dapat dipercaya dan aman beroperasi di lingkungan manusia. Hal ini penting agar adopsi robot otonom semakin luas dan diterima di berbagai sektor.

Ke depan, kolaborasi antara pengembang, industri, dan komunitas riset akan menjadi kunci untuk mengatasi tantangan spesifik dan memperluas kemampuan reasoning embodied yang makin kompleks. Pembaca sebaiknya mengikuti terus perkembangan ini karena Gemini Robotics-ER 1.6 berpotensi menjadi tulang punggung robotika masa depan yang mampu beradaptasi di dunia nyata dengan tingkat otonomi tinggi.

What's Your Reaction?

Like Like 0
Dislike Dislike 0
Love Love 0
Funny Funny 0
Angry Angry 0
Sad Sad 0
Wow Wow 0
admin As a passionate news reporter, I am fueled by an insatiable curiosity and an unwavering commitment to truth. With a keen eye for detail and a relentless pursuit of stories, I strive to deliver timely and accurate information that empowers and engages readers.
Ad
Ad