DeepSeek, lab AI asal China, tengah disorot usai merilis model penalaran terbaru mereka, DeepSeek R1, yang tampil memukau di berbagai tes matematika dan pemrograman. Namun, di balik kesuksesan itu, muncul tudingan bahwa model ini dilatih menggunakan data dari Google Gemini-tanpa izin.
Kecurigaan mencuat dari komunitas peneliti AI, terutama setelah Sam Paech, programmer asal Melbourne, mengamati bahwa gaya bahasa DeepSeek R1-0528 “hampir mencerminkan” cara Gemini 2.5 Pro merespons. Dalam postingannya di X (dulu Twitter), Paech menilai struktur penalaran dan diksi DeepSeek R1 sangat mirip dengan model Gemini.
Hal serupa juga diamini oleh pengembang di balik proyek SpeechMap, yang menilai model DeepSeek menampilkan “jejak” penalaran khas Gemini. Meski belum ada bukti teknis yang final, pola kesamaan ini menimbulkan pertanyaan serius soal praktik pelatihan data oleh DeepSeek.
If you’re wondering why new deepseek r1 sounds a bit different, I think they probably switched from training on synthetic openai to synthetic gemini outputs.
Ini bukan tudingan pertama terhadap DeepSeek. Pada Desember 2024, komunitas pengembang sempat menemukan bahwa model DeepSeek V3 sesekali mengidentifikasi dirinya sebagai ChatGPT, menandakan kemungkinan pelatihan menggunakan log dari model milik OpenAI.
Tak lama kemudian, laporan dari Financial Times dan Bloomberg menyebut bahwa OpenAI dan Microsoft menemukan indikasi DeepSeek memakai metode distilasi-yakni melatih model baru dengan meniru output dari model AI besar seperti GPT atau Gemini. Bahkan, Microsoft mendapati kebocoran data dari akun pengembang OpenAI yang diduga terhubung ke DeepSeek.
Meski teknik distilasi tak asing di kalangan pengembang AI, OpenAI melarang keras pemanfaatan output produknya untuk membuat model pesaing. Apalagi kini, data pelatihan makin rentan terkontaminasi oleh konten AI dari situs spam dan bot, sehingga menyaring data “murni” jadi tantangan tersendiri.
Menurut Nathan Lambert, peneliti di AI2 (Allen Institute for AI), dugaan bahwa DeepSeek menggunakan Gemini sebagai sumber pelatihan bukanlah hal mustahil.
DeepSeek hingga kini belum merespons secara terbuka tudingan ini. Namun, kasus ini membuka diskusi lebih luas soal etika, transparansi, dan kepemilikan data dalam era AI generatif yang makin cepat berkembang, demikian dilansir dari Techcrunch.