AI Ternyata Belum Bisa Baca Waktu dan Kalender

Posted on

Penelitian baru telah mengungkap serangkaian tugas yang dapat dilakukan sebagian besar manusia dengan mudah, tetapi tidak dapat dilakukan oleh kecerdasan buatan atau AI, yaitu membaca jam analog atau mencari tahu hari suatu tanggal.

AI mungkin dapat menulis kode, menghasilkan gambar yang tampak nyata, membuat teks yang terdengar seperti manusia, dan bahkan lulus ujian dengan tingkat keberhasilan yang bervariasi.

Namun, studi yang satu ini membuktikan AI selalu salah menafsirkan posisi jarum jam sehari-hari dan gagal dalam aritmatika dasar yang diperlukan untuk tanggal kalender. AI tidak bisa melakukan itu, atau mungkin belum bisa? Tidak ada yang tahu sejauh mana AI berkembang. Mungkin saja kemampuan ini akan bisa dilakukannya di masa depan.

Para peneliti mengungkapkan kelemahan yang tidak terduga ini dalam sebuah presentasi di International Conference on Learning Representations (ICLR) 2025. Mereka juga menerbitkan temuan mereka pada 18 Maret di server pracetak arXiv, sehingga belum ditinjau sejawat.

“Kebanyakan orang dapat mengetahui waktu dan menggunakan kalender sejak usia dini. Temuan kami menyoroti kesenjangan yang signifikan dalam kemampuan AI untuk menjalankan keterampilan yang cukup mendasar bagi manusia,” kata penulis utama studi Rohit Saxena, seorang peneliti di Edinburgh University, dalam pernyataannya, dikutip dari Live Science, Senin (19/5/2025).

Peneliti studi menyebutkan, kekurangan ini harus diatasi jika sistem AI ingin berhasil diintegrasikan ke dalam aplikasi dunia nyata yang peka terhadap waktu, seperti penjadwalan, otomatisasi, dan teknologi bantuan.

Untuk menyelidiki kemampuan pencatatan waktu AI, para peneliti memasukkan kumpulan data khusus gambar jam dan kalender ke dalam berbagai multimodal large language model (MLLM), yang dapat memproses informasi visual maupun tekstual.

Model yang digunakan dalam penelitian ini meliputi Llama 3.2-Vision milik Meta, Claude-3.5 Sonnet milik Anthropic, Gemini 2.0 milik Google, dan GPT-4o milik OpenAI.

Hasilnya buruk, model AI tidak dapat mengidentifikasi waktu yang tepat dari gambar jam atau hari dalam seminggu untuk tanggal sampel lebih dari separuh waktu. Namun, para peneliti memiliki penjelasan untuk kemampuan pembacaan waktu AI yang sangat buruk.

“Sistem awal dilatih berdasarkan contoh berlabel, sedangkan membaca jam memerlukan sesuatu yang berbeda, penalaran spasial,” kata Saxena.

“Model tersebut harus mendeteksi jarum jam yang saling tumpang tindih, mengukur sudut, dan menavigasi berbagai desain seperti angka Romawi atau pelat jam. AI yang mengenali bahwa ‘ini adalah jam’ lebih mudah daripada benar-benar membacanya,” ujarnya.

Pengenalan AI terhadap tanggal pun terbukti sama sulitnya. Ketika diberi tantangan seperti ‘Hari apa tanggal ke-153 dalam setahun?’ Tingkat kegagalannya juga tinggi. Sistem AI hanya membaca jam dengan benar sebesar 38,7% dan kalender hanya sebesar 26,3%.

Kekurangan ini juga mengejutkan karena aritmatika merupakan landasan dasar komputasi. Tetapi seperti yang dijelaskan Saxena, AI menggunakan sesuatu yang berbeda.

“Aritmatika mudah untuk komputer tradisional tetapi tidak untuk model bahasa yang besar. AI tidak menjalankan algoritma matematika, ia memprediksi keluaran berdasarkan pola yang dilihatnya dalam data pelatihan,” katanya.

“Jadi, meskipun ia dapat menjawab pertanyaan aritmatika dengan benar, penalarannya tidak konsisten atau berbasis aturan, dan pekerjaan kami menyoroti kesenjangan itu,” urainya.

Proyek ini merupakan yang terbaru dalam serangkaian penelitian yang menyoroti perbedaan antara cara AI memahami dengan cara manusia. Model memperoleh jawaban dari pola yang sudah dikenal dan unggul ketika ada cukup banyak contoh dalam data pelatihannya, tetapi gagal ketika diminta untuk menggeneralisasi atau menggunakan penalaran abstrak.

“Apa yang bagi kita merupakan tugas yang sangat sederhana seperti membaca jam mungkin sangat sulit bagi mereka, dan sebaliknya,” kata Saxena.

Penelitian ini juga mengungkap masalah yang dialami AI ketika dilatih dengan data yang terbatas, dalam hal ini fenomena yang relatif jarang terjadi seperti tahun kabisat atau perhitungan kalender yang tidak jelas. Meskipun LLM memiliki banyak contoh yang menjelaskan tahun kabisat sebagai sebuah konsep, itu tidak berarti mereka membuat koneksi yang diperlukan untuk menyelesaikan tugas visual.

Penelitian ini menyoroti kebutuhan akan contoh yang lebih terarah dalam data pelatihan dan kebutuhan untuk memikirkan kembali bagaimana AI menangani kombinasi penalaran logis dan spasial, terutama dalam tugas yang tidak sering ditemuinya. Yang terpenting lagi, penelitian ini mengungkap satu hal bahwa terlalu mempercayakan hasil AI dapat membahayakan kita.

“AI itu hebat, tetapi ketika tugas memadukan persepsi dengan penalaran yang tepat, kita tetap memerlukan pengujian yang ketat, logika fallback, dan dalam banyak kasus, manusia yang terlibat,” kata Saxena.

Leave a Reply

Your email address will not be published. Required fields are marked *