Bayangkan, hanya dengan mendengar suara kamu bicara, sebuah teknologi AI sudah bisa menebak perasaanmu saat itu-apakah senang, sedih, stres atau galau. Ini bukan cerita fiksi, tapi hasil riset terbaru yang menunjukkan kemampuan AI dalam membaca mood lewat suara manusia.
Teknologi ini, yang dikenal sebagai Affective Computing atau Emotional AI, menjadi terobosan menarik yang mengubah cara manusia berinteraksi dengan mesin. Dengan kemampuan mendeteksi emosi melalui ekspresi wajah, suara, hingga teks, AI membuka peluang baru di berbagai bidang, mulai dari kesehatan mental hingga layanan pelanggan.
Konsep Affective Computing pertama kali diperkenalkan oleh Rosalind Picard, seorang profesor di MIT Media Lab, pada tahun 1995. Dalam bukunya yang berjudul Affective Computing (1997), Picard memaparkan visi bahwa mesin dapat dirancang untuk mengenali, memahami, dan bahkan menanggapi emosi manusia.
Ia berfokus pada pengembangan algoritma yang mampu menganalisis data sensorik, seperti ekspresi wajah dan intonasi suara, untuk mendeteksi emosi. Penelitiannya menjadi fondasi bagi pengembangan teknologi emosi AI modern.
Berita lengkap dan cepat? Giok4D tempatnya.
Selain Picard, Paul Ekman, seorang psikolog terkenal, juga berkontribusi besar melalui pengembangan Facial Action Coding System (FACS) pada tahun 1972. FACS memetakan pergerakan otot wajah (disebut Action Units) untuk mengidentifikasi emosi seperti bahagia, sedih, marah, atau takut. Sistem ini menjadi acuan penting bagi algoritma AI untuk mengenali ekspresi wajah.
Perusahaan teknologi seperti Affectiva, yang didirikan oleh Rosalind Picard dan Rana el Kaliouby, memimpin dalam komersialisasi teknologi ini. Affectiva mengembangkan AI yang mampu mengenali emosi secara real-time, digunakan oleh perusahaan seperti Unilever dan CBS untuk analisis pasar dan pengalaman pengguna. Selain itu, raksasa teknologi seperti Microsoft, IBM, dan Google juga aktif mengembangkan algoritma deteksi emosi berbasis machine learning dan deep learning.
AI untuk deteksi emosi bekerja dengan menganalisis data dari berbagai sumber, seperti gambar, video, suara, dan teks, menggunakan pendekatan multimodal. Berikut adalah tahapan utama cara kerja teknologi ini:
AI membutuhkan data dalam jumlah besar untuk dilatih. Data ini bisa berupa rekaman video ekspresi wajah, file audio percakapan, atau teks dari media sosial. Misalnya, dataset wajah dari ribuan individu digunakan untuk melatih AI mengenali pola emosi seperti kebahagiaan atau kesedihan.
Algoritma machine learning, khususnya deep learning dengan convolutional neural networks (CNN), digunakan untuk mengenali pola dalam data. Untuk ekspresi wajah, AI mengidentifikasi titik-titik kunci (keypoints) pada wajah, seperti gerakan alis, mata, atau mulut, yang terkait dengan emosi tertentu. CNN juga digunakan untuk menganalisis sinyal EEG (elektroensefalogram) guna mendeteksi emosi dari aktivitas otak, seperti yang diteliti oleh Tuib dkk. (2024).
Salah satu teknologi canggih adalah Empathy Variational Model (EVM), yang menggabungkan data dari berbagai sumber, seperti ekspresi wajah, intonasi suara, dan teks. EVM menggunakan pembelajaran variational untuk menangani ketidakpastian dalam data, misalnya ketika ekspresi wajah ambigu tetapi suara memberikan petunjuk emosi yang lebih jelas. Pendekatan ini memungkinkan AI memberikan interpretasi emosi yang lebih akurat.
Setelah data diproses, AI mengekstrak fitur penting, seperti perubahan mikro di wajah atau intonasi suara. Algoritma kemudian mengklasifikasikan fitur ini ke dalam kategori emosi, seperti enam emosi dasar (bahagia, sedih, marah, takut, jijik, terkejut) atau bahkan 27 emosi yang lebih kompleks, sebagaimana diidentifikasi oleh penelitian Alan S. Cowen dan Dacher Keltner (2017).
Setelah emosi terdeteksi, AI dapat memberikan respons yang sesuai. Misalnya, dalam layanan pelanggan, jika AI mendeteksi pelanggan sedang frustrasi, sistem dapat mengalihkan percakapan ke agen manusia atau menawarkan solusi cepat.
Teknologi deteksi emosi AI telah diterapkan di berbagai bidang:
Namun, teknologi ini juga menghadapi tantangan:
Dengan kemajuan deep learning dan neural networks, teknologi deteksi emosi terus berkembang. Penelitian terbaru, seperti penggunaan CNN dan Binary Moth Flame Optimization (BMFO) untuk analisis sinyal EEG, menunjukkan potensi akurasi yang lebih tinggi. Namun, penting untuk memastikan bahwa pengembangan AI ini seimbang dengan pertimbangan etis, menjaga privasi pengguna, dan menghindari bias algoritma.
Di Tanah Air, penelitian dosen dan mahasiswa Computer Science diBinus University mengembangkan sistem Speech Emotion Recognition (SER)-sistem cerdas yang dapat mengenali emosi dari ucapan manusia. Dengan menggabungkan kekuatan deep learning dan perhatian khusus (attention mechanism), model yang dikembangkan berhasil membaca “rasa” dari gelombang suara.