DeepSeek mengungkap informasi mengenai proses pembuatan model AI open source mereka, yang biayanya jauh lebih rendah dibanding kompetitornya seperti OpenAI.
Dalam laporan yang ditulis oleh pendiri DeepSeek Liang Wenfeng itu diungkap kalau DeepSeek-V3 dilatih menggunakan 2.048 GPU Nvidia H800, demikian dikutip infoINET dari SCMP, Senin (19/5/2025).
“DeepSeek-V3 yang dilatih menggunakan 2.048 GPU Nvidia H800 memperlihatkan bagaimana model hardware bisa mengubah tantangan ini secara efektif, membuat pelatihan dan inference dalam skala menjadi efisien,” tulisnya dalam laporan tersebut.
DeepSeek dan High-Flyer, yang merupakan penyandang dana DeepSeek, sebelumnya sudah menimbun H800. GPU H800 ini didesain khusus oleh Nvidia untuk pasar China, sesuai dengan aturan pembatasan yang diterapkan oleh AS. Namun kemudian ekspor H800 ini juga dilarang pada tahun 2023.
Cara melatih model AI yang dipakai oleh startup tersebut merupakan solusi dari pelatihan model AI yang dibatasi oleh hardware dan biaya yang tinggi, seperti yang dipakai OpenAI untuk melatih GPT.
DeepSeek juga menjelaskan optimasi teknis untuk meningkatkan efisiensi memori, memuluskan komunikasi antar chip, dan meningkatkan performa infrastruktur AI secara keseluruhan.
Berbagai metode yang diterapkan oleh DeepSeek ini diklaim bisa mengurangi biaya komputasional untuk prapelatihan dan mencapai performa lebih kencang selama inference.
Metode tersebut kini sudah diadopsi oleh banyak pengembang Ai di China, termasuk Alibaba dalam model AI Qen3.
Seperti diketahui, DeepSeek merilis model V3 pada Desember 2024 dan kemudian R1 sebulan kemudian. Kedua model AI ini mengejutkan dunia karena kebutuhan komputasinya yang jauh lebih irit dibanding GPT, namun dengan kemampuan yang sebanding.
Namun setelahnya DeepSeek terlihat bungkam soal masa depan rencana penelitiannya. Mereka hanya merilis hasil penelitiannya ke publik secara reguler.
Di sisi lain, banyak perusahaan teknologi China mengklaim penelitiannya di ranah AI bisa berakselerasi dengan cepat. Enam bulan sejak V3 dirilis, berbagai perusahaan teknologi China sudah meluncurkan banyak model AI baru yang terlihat menjanjikan.
Baidu misalnya, yang pada April lalu merilis model AI Ernie 4.5 Turbo dan X1 Turbo, dengan kemampuan multimodal reasoning dan harga yang 40% lebih murah dibanding DeepSeek V3.
Kemudian Alibaba pada bulan yang sama juga memperkenalkan model AI Qwen terbarunya, yang langsung menyalip V3 sebagai model AI open source paling populer di dunia.