Google Rilis Model AI Terbaru untuk Mempelajari Bahasa Lumba-lumba

Posted on

Beberapa hari setelah meluncurkan Deep Research yang didukung oleh Gemini 2.5 Pro Experimental, Google kembali lagi dengan model AI terbaru, yakni DolphinGemma.

Model bahasa yang besar ini ditujukan untuk membantu para ilmuwan mempelajari bagaimana lumba-lumba berkomunikasi dan diharapkan dapat memahami apa yang mereka katakan sebagaimana dilansir infoINET dari Neowin, Rabu (16/4/2025).

Google bekerja sama dengan para peneliti di Georgia Tech dan Wild Dolphin Project (WDP), yang dipimpin oleh pendirinya, Dr Denise Herzing. Misi utama WDP adalah mengamati, mendokumentasikan, dan melaporkan perilaku alami, struktur sosial, pola komunikasi, dan habitat lumba-lumba liar, khususnya lumba-lumba totol Atlantik (Stenella frontalis), melalui penelitian lapangan jangka panjang yang tidak invasif.

Selama bertahun-tahun, WDP telah mengumpulkan data yang memungkinkannya untuk menghubungkan suara lumba-lumba tertentu dengan perilaku.

Sebagai contoh, menurut Google, menganalisis komunikasi alami dan kompleks lumba-lumba adalah tugas yang monumental, dan kumpulan data WDP yang sangat luas dan berlabel memberikan peluang unik untuk AI yang canggih. Di situlah DolphinGemma berperan.

Sederhananya, ini adalah model AI yang dikembangkan oleh Google pada kumpulan data WDP, yang menggunakan tokenizer SoundStream milik Google sendiri untuk memecah vokalisasi lumba-lumba menjadi unit audio yang lebih mudah dikelola.

Ini kemudian dijalankan melalui arsitektur model khusus yang dirancang untuk memahami urutan yang kompleks. Seluruh pengaturan ini terdiri dari sekitar 400 juta parameter, sehingga cukup ringan untuk dijalankan secara native di ponsel Pixel, yang dibawa oleh para peneliti WDP di lapangan.

Sekarang, tidak seperti model pembelajaran mesin tradisional, DolphinGemma tidak berdasarkan dengan kata-kata atau gambar, ini benar-benar sesuai dengan audio-in dan audio-out.

DolphinGemma mengambil urutan vokalisasi lumba-lumba alami, memprosesnya menggunakan pendekatan yang terinspirasi oleh bagaimana model bahasa besar memahami ucapan manusia, dan memprediksi suara yang paling mungkin terjadi selanjutnya dalam suatu urutan.

Denise Herzing membandingkannya dengan pelengkapan otomatis, tetapi untuk peluit lumba-lumba, denyut nadi, dan bunyi klik. Sistem ini dilatih untuk mengidentifikasi pola, struktur, dan perkembangan suara-suara tersebut, seperti halnya model berbasis teks yang memprediksi kata berikutnya dalam sebuah kalimat berdasarkan konteks.

Sebelum Google hadir dengan DolphinGemma, tim peneliti di WDP telah menggunakan CHAT (Cetacean Hearing Augmentation Telemetry) untuk menjajaki kemungkinan komunikasi dua arah dengan lumba-lumba.

Tujuan penggunaan CHAT bukanlah untuk memecahkan kerumitan bahasa lumba-lumba, melainkan untuk membangun kosakata bersama yang lebih sederhana untuk berinteraksi.

Sistem ini bekerja dengan mengasosiasikan peluit sintetis baru, yang dibuat oleh CHAT, dengan objek tertentu yang tampaknya disukai lumba-lumba. Misalnya, benda-benda seperti sargassum, lamun, atau bahkan syal yang digunakan para peneliti.

Harapannya, dengan mengasosiasikan peluit sintetis ini dengan benda-benda tersebut secara berulang-ulang, lumba-lumba akan mulai menirukan suaranya untuk meminta benda-benda tersebut.

CHAT dijalankan dengan Google Pixel 6, yang menangani analisis audio berkualitas tinggi secara real time. Menggunakan ponsel yang tersedia di pasaran berarti tim tidak memerlukan peralatan khusus. Hal ini membuat segala sesuatunya menjadi lebih kecil, lebih murah, lebih efisien, dan lebih mudah dirawat di lautan lepas.

Untuk musim mendatang, mereka meningkatkan ke Pixel 9, yang menambahkan kemampuan speaker dan mikrofon yang lebih baik dan memiliki kekuatan yang cukup untuk menjalankan model pembelajaran mendalam dan pencocokan pola secara bersamaan.

Sama seperti model Gemma lainnya, Google mengatakan bahwa mereka menghadirkan DolphinGemma sebagai model terbuka pada musim panas ini dengan harapan dapat memberikan para peneliti di seluruh dunia alat untuk menambang dataset akustik mereka sendiri, mempercepat pencarian pola, dan secara kolektif memperdalam pemahaman kita tentang mamalia laut yang cerdas ini.

Gemma adalah keluarga model bahasa besar yang ringan yang dikembangkan oleh Google. Tambahan terbaru untuk keluarga ini adalah Gemma 3, tersedia dalam empat ukuran: 1 miliar, 4 miliar, 12 miliar, dan 27 miliar parameter.

Leave a Reply

Your email address will not be published. Required fields are marked *