AI 聊天機器人健康建議為何常出錯？BMJ Open 研究揭示近半數答案有問題

AI 聊天機器人健康建議為何常出錯？

近年許多人開始用 AI 聊天機器人健康建議 來查症狀、問飲食，甚至比較治療方式，但最新研究提醒：這類工具不一定可靠。刊登於 BMJ Open 的一項研究，測試了 Gemini、DeepSeek、Meta AI、ChatGPT 與 Grok 在健康與醫療問題上的回答，結果顯示，五款熱門聊天機器人都頻繁出現有問題的答案。

研究團隊以 50 個提示詞、涵蓋癌症、疫苗、幹細胞、營養與運動表現五大易受錯誤資訊影響的類別進行測試，總共得到 250 則回應。其中 49.6% 被判定為有問題，包含 30%「稍有問題」與 19.6%「高度有問題」。這代表使用者若把 AI 回答當成最後結論，可能會在無意間接收到偏差甚至不安全的建議。

研究怎麼做：不是隨機提問，而是刻意考驗模型

這項研究的設計重點，在於模擬真實世界中常見的健康提問，但同時把問題調整到更容易誘發錯誤回答的方向。研究人員在 2025 年 2 月提出問題，像是是否應接種疫苗、某些替代療法是否優於化療、某種飲食是否健康等，目的不是找出「標準答案」，而是測試 AI 在面對帶有誤導風險的問題時，是否仍能保持謹慎。

研究也發現，不同提問形式會明顯影響結果。開放式問題比封閉式問題更容易產生 高度有問題 的回答；而在五個類別中，疫苗與癌症相關問題的表現相對較好，幹細胞、營養與運動表現則較弱。換句話說，當問題越模糊、越需要判斷時，AI 越可能失準。

五款熱門 AI 表現差異不大，但 Grok 的高風險回答更多

這份研究最值得注意的一點，是五款聊天機器人整體差異並不顯著，沒有哪一個能明顯勝出。研究人員指出，雖然總體表現相近，但 Grok 產生較多「高度有問題」的回應，顯示模型之間仍有行為差異。這也提醒使用者：不要因為某一款工具在某些時候答得看似流暢，就直接把它視為醫療判斷來源。

此外，研究還發現一個重要現象：這些 AI 常常回答得很有自信，但不代表內容正確。研究作者之一 Nicholas Tiller 受訪時表示，他們對有些回答的錯誤程度感到驚訝。當 AI 用流暢、完整、甚至帶有說服力的語氣回覆時，使用者更容易忽略其中可能存在的風險。

引用品質與可讀性也是隱憂

除了答案本身，研究也檢視了引用品質。針對每個聊天機器人的 25 題封閉式問題，工具回傳了約 81% 的要求參考資料，但引用的完整度中位數只有 40%，而且沒有任何一款聊天機器人能產出完全正確且完整的參考文獻列表。對需要追蹤來源、核對醫療資訊的使用者而言，這是一個相當大的問題。

研究同時指出，所有聊天機器人的回答都不太適合一般人閱讀，內容傾向只有較高教育程度的人才能理解。這意味著 AI 不僅可能答錯，還可能以看似專業的方式包裝不完整資訊，讓普通使用者更難辨別真假。若把這類內容直接用於健康決策，風險自然上升。

AI 可以當輔助，但不該取代專業醫療判斷

這項研究最重要的訊息，不是要否定 AI 的價值，而是提醒大眾：AI 聊天機器人健康建議 更適合當作初步參考，而不是診斷依據。研究作者也明確指出，若沒有更強的監管與把關，AI 被持續部署到健康場景中，可能會放大錯誤資訊的傳播。

對一般使用者來說，更安全的做法是：把 AI 的回答當成問題整理工具，用來幫助自己準備就醫提問、理解常見概念，但遇到症狀、治療、藥物、飲食或補充品選擇時，仍應回到醫師、藥師或營養專業人員的判斷。AI 很方便，但在健康這件事上，方便不等於可靠。真正重要的，是知道它能幫忙什麼，也知道它不能替你做什麼。