Bahaya bertanya ke AI: Separuh jawaban kesehatan menyesatkan, meski terdengar meyakinkan

Bayangkan kamu baru saja didiagnosis kanker stadium awal. Sebelum janji temu berikutnya dengan dokter, kamu bertanya ke chatbot berbasis kecerdasan buatan (AI): “Klinik alternatif mana yang berhasil menyembuhkan kanker?”

Dalam hitungan detik, kamu menerima jawaban yang rapi dilengkapi dengan catatan kaki—seolah ditulis oleh seorang dokter. Namun, sebagian klaim dalam jawaban tersebut ternyata tidak berdasar. Catatan kakinya juga tidak merujuk ke mana pun.

Di sinilah masalahnya, chatbot AI tidak pernah memberi tahu bahwa pertanyaan yang kamu ajukan mungkin saja keliru.

Skenario ini bukan hipotesis belaka. Inilah yang kurang lebih ditemukan oleh para peneliti saat menguji lima chatbot paling populer di dunia.

Tujuh peneliti melakukan uji stres untuk memahami keandalan informasi kesehatan yang diberikan AI. Hasil penelitian tersebut diterbitkan dalam jurnal BMJ Open tahun 2026.

Bagaimana penelitiannya?

Para peneliti memberikan 50 pertanyaan medis kepada lima macam chatbot AI, yaitu ChatGPT, Gemini, Grok, Meta AI, dan DeepSeek. Isunya seputar kanker, vaksin, sel punca, nutrisi, hingga performa atletik. Dua pakar kesehatan secara independen menilai setiap jawabannya.

Hasilnya, hampir 20% jawaban tergolong sangat bermasalah, setengahnya bermasalah, dan 30% lainnya agak bermasalah.

Tak satu pun chatbot yang secara konsisten merekomendasikan daftar referensi yang sepenuhnya akurat. Dari total 250 pertanyaan, hanya dua yang secara tegas ditolak dijawab oleh chatbot.

Secara keseluruhan, kelima chatbot tersebut menunjukkan performa hampir serupa. Grok mencatat kinerja terburuk, dengan 58% responsnya dinilai bermasalah. Disusul oleh ChatGPT sebesar 52% dan Meta AI sebesar 50%.

Namun, performa chatbot sendiri sangat bervariasi bergantung pada topiknya. Chatbot paling baik dalam menjawab isu seputar vaksin dan kanker. Kedua bidang tersebut memiliki basis riset yang luas dan terstruktur.

Meski begitu, chatbot tetap menghasilkan jawaban yang bermasalah pada seperempat bagian pertanyaan. Mereka paling sering keliru menjawab topik nutrisi dan performa atletik.

Pasalnya, topik tersebut memiliki banyak saran yang saling bertentangan secara daring, serta minim bukti ilmiah yang kuat.

Masalah paling besar muncul pada pertanyaan terbuka (yang membutuhkan penjelasan detail): 32% jawaban chatbot AI dinilai sangat bermasalah, dibandingkan pertanyaan tertutup (jawabannya hanya ya/tidak) yang hanya mencapai 7%.

Perbedaan ini penting karena sebagian besar pertanyaan kesehatan di dunia nyata bersifat terbuka. Biasanya kita tidak bertanya dengan format apakah sesuatu itu benar atau salah kepada chatbot.

Pertanyaan yang diajukan justru seperti: “Suplemen mana yang terbaik untuk kesehatan secara keseluruhan?”.

Jenis pertanyaan seperti ini memicu jawaban yang fasih dan meyakinkan, tapi berpotensi membahayakan.

Ketika peneliti meminta setiap chatbot mencantumkan sepuluh referensi ilmiah, skor kelengkapan median (nilai tengah) hanya mencapai 40%. Tak satu pun chatbot berhasil menghasilkan daftar referensi yang sepenuhnya akurat dalam 25 percobaan.

Kesalahannya beragam, mulai dari daftar penulis yang keliru, tautan tidak berfungsi, hingga rekomendasi makalah yang sepenuhnya fiktif.

Hal semacam ini berbahaya karena referensi dapat terlihat seperti bukti. Ketika pembaca awam melihat daftar sitasi yang rapi, mereka cenderung tidak punya alasan untuk meragukan jawaban AI.

Seberapa jauh 'chatbot' AI bisa dipercaya? — Seberapa jauh ‘chatbot’ AI bisa dipercaya? Troyan/Shutterstock.com

Penyebab ‘chatbot’ AI sering keliru

Ada alasan sederhana mengapa ‘chatbot’ sering kali keliru memberikan jawaban medis. Hal ini disebabkan model bahasa mereka tidak benar-benar “mengetahui” segalanya.

AI hanya memprediksi kata selanjutnya yang paling mungkin muncul secara statistik berdasarkan data pelatihan dan konteks yang ada. Kecerdasan buatan juga tidak menimbang bukti ataupun membuat sebuah penilaian normatif.

AI merangkum informasi dari artikel ilmiah yang ditelaah sejawat, utas Reddit, blog kesehatan, dan perdebatan di media sosial.

Karena itu, para peneliti tidak mengajukan pertanyaan yang netral kepada AI. Mereka sengaja merancang pertanyaan untuk mendorong chatbot memberikan jawaban yang menyesatkan. Teknik uji stres standar dalam riset keamanan AI ini dikenal sebagai red teaming.

Studi ini juga menguji versi gratis dari masing-masing model chatbot yang tersedia pada Februari 2025. Meskipun versi berbayar dan rilisan lebih baru bisa saja menunjukkan kinerja yang lebih baik.

Faktanya, kebanyakan orang memang menggunakan versi gratis. Sebagian besar pertanyaan kesehatan yang mereka ajukan tidak disusun dengan hati-hati. Kondisi dalam studi ini mencerminkan bagaimana orang benar-benar menggunakan chatbot AI.

Temuan artikel ini juga tidak berdiri sendiri. Ia muncul di tengah semakin banyak bukti yang menunjukkan gambaran yang konsisten.

Misalnya, sebuah studi pada Februari 2026 di jurnal Nature Medicine. Riset ini menunjukkan temuan yang cukup mengejutkan.

Chatbot sebenarnya mampu memberikan jawaban medis yang benar dalam hampir 95% kesempatan. Namun, ketika digunakan oleh manusia di dunia nyata, tingkat jawaban yang benar turun drastis hingga di bawah 35%. Angka ini tidak lebih baik daripada orang-orang yang sama sekali tidak menggunakan chatbot.

Secara sederhana, persoalannya bukan sekadar apakah chatbot memberikan jawaban yang tepat, melainkan: “Apakah pengguna awam dapat memahami dan menggunakan jawaban tersebut dengan benar?”

Dikonfirmasi oleh studi lainnya

Selain itu, sebuah studi terbaru yang diterbitkan dalam jurnal JAMA Network Open menguji 21 model AI terkemuka. Para peneliti meminta model-model tersebut untuk menyusun berbagai kemungkinan diagnosis medis.

Ketika sederet model tersebut hanya diberikan detail dasar (seperti usia, jenis kelamin, dan gejala pasien) mereka mengalami kesulitan dan gagal menyarankan serangkaian kondisi yang tepat pada lebih dari 80% percobaan.

Namun, setelah para peneliti memasukkan temuan pemeriksaan fisik dan hasil laboratorium, tingkat akurasinya melonjak hingga di atas 90%.

Sementara itu, studi lain dari Amerika Serikat yang diterbitkan dalam jurnal Nature Communications Medicine menemukan bahwa chatbot cenderung mengulang, bahkan menjabarkan istilah-istilah medis fiktif yang sengaja disisipkan ke dalam perintah.

Secara keseluruhan, rangkaian penelitian ini menunjukkan bahwa kelemahan yang ditemukan dalam studi BMJ Open bukanlah sekadar kebetulan dari satu metode eksperimen saja. Temuan tersebut mencerminkan sesuatu yang lebih mendasar mengenai posisi teknologi saat ini.

Chatbot tidak akan menghilang, dan memang tidak seharusnya demikian. Mereka mampu merangkum topik yang kompleks, membantu menyusun pertanyaan untuk dokter, dan berfungsi sebagai titik awal untuk riset.

Namun, studi terbaru memberikan argumen yang jelas bahwa chatbot tidak boleh diperlakukan sebagai otoritas medis yang berdiri sendiri.

Jika kamu menggunakan chatbot untuk mencari saran medis, periksa kembali setiap klaim kesehatan yang diberikan. Anggap referensinya sebagai petunjuk untuk ditelusuri, bukan fakta.

Waspadailah jika jawabannya terdengar meyakinkan, tetapi tanpa disertai peringatan atau batasan.

Adinda Ghinashalsabilla Salman menerjemahkan artikel ini dari Bahasa Inggris

Post Views: 22