AI Chatbots 把不存在的病說成真的,問題從哪裡開始?
近年來,AI Chatbots 已成為許多人搜尋健康資訊的第一站,但一則關於「Bixonimania」的案例,卻揭開了這項便利背後的風險。這種被捏造出來的眼疾,最初只是研究者為了測試系統是否會吸收錯誤資訊而設計的虛構概念;沒想到,幾週內它就被部分聊天機器人當成可能診斷,甚至在對話中被描述為「近期提出」或「最近被描述」的狀況。這表示,當 AI 面對看起來像專業文本的內容時,未必能分辨真偽。
根據相關報導,這項實驗由瑞典哥德堡大學研究者 Almira Osmanovic Thunström 在 2024 年初展開。她先創造了一種名為 bixonimania 的虛構眼病,並將兩篇假的學術論文上傳到 preprint 平台,觀察 AI 是否會把這些資訊當成可信來源。結果不只 ChatGPT,連 Microsoft Copilot 與 Google Gemini 等系統,也曾在回覆中重複相關描述,凸顯 AI 對醫療資訊的脆弱性。
假論文、真引用:Bixonimania 為何會「傳染」到研究圈?
最令人意外的不是 AI 會出錯,而是錯誤資訊竟然還能反過來影響研究寫作。這份 bixonimania 的內容從未經過正式期刊審查,也沒有真正的醫學證據支持,但後續竟被一篇同樣經過同儕審查的論文引用。當假資訊被包裝成學術格式,系統與人類都更容易放下戒心,這正是這場事件最值得警惕之處。
更具體地說,印度 Maharishi Markandeshwar Institute of Medical Sciences and Research 的三位研究者,曾在 Cureus 發表論文並引用了這些 bixonimania 預印本,之後在 hoax 被揭穿後,該文也遭到撤回。這說明問題不只是 AI 的「幻覺」,還包括學術流程中對來源審核的鬆動。當一個未被證實的概念先被模型吸收,再被人類研究者接手引用,假資訊就可能形成自我強化的循環。
為什麼 AI 對醫療假訊息特別容易失手?
報導指出,當文本看起來像臨床論文或出院摘要時,AI 更容易出現幻覺與延伸編造。換句話說,形式感越強、語氣越專業,模型越可能誤把它當成可靠知識。這也解釋了為什麼 bixonimania 這類捏造病名,能在短時間內被多個大型語言模型重複輸出。
另一個值得注意的背景是,AI 在醫療領域的確有巨大潛力。NIH 相關綜述指出,AI 已被用於診斷、治療規劃、影像判讀與遠距監測等場景,並在某些任務上展現出強大效率。不過,優勢與風險始終並存:越多人把 AI 當成健康顧問,就越需要更嚴格的資料來源控管與醫學驗證機制。
從眼睛不適到錯誤診斷:使用者該如何看待 AI 健康建議?
這起事件也提醒我們,許多使用者向 AI 詢問健康問題時,往往只是因為長時間盯螢幕後出現眼睛刺激、眼皮不適或乾澀等症狀。這些日常情境非常容易讓人想立刻尋找答案,但如果模型把虛構疾病說得頭頭是道,使用者就可能被誤導,甚至延誤真正的醫療判斷。
值得一提的是,報導中提到,ChatGPT 之後曾把 bixonimania 標示為「made-up」,但仍偶爾將其描述成「proposed subtype」;Copilot 則曾稱它「not widely recognized」。這種前後不一致,正說明 AI 並非穩定可靠的醫療來源。對一般人來說,最安全的做法仍然是:把 AI 當作資訊整理工具,而不是確診工具,任何涉及症狀與治療的問題,都應回到合格醫師與正式醫療資源。
當假資訊能被機器與人類一起放大,我們該學到什麼?
Bixonimania 的故事看似荒謬,卻把 AI 時代最現實的問題濃縮在一起:模型會學錯、使用者會相信、研究者也可能引用,而這些環節一旦串起來,錯誤就不再只是單點失誤,而會成為能自我擴散的資訊鏈。這也是為什麼,面對醫療內容時,「看起來像真的」遠遠不夠,還必須追問它是否真的被驗證過。
從更宏觀的角度看,AI 在醫療上的價值不該被這次事件否定,但它的使用邏輯必須更謹慎。未來若要讓 AI 真正服務健康,而不是放大混亂,關鍵不只是更大模型或更多數據,而是更強的來源審查、透明度與人類監督。Bixonimania 沒有造成一場真實疾病流行,卻已經成功提醒所有人:在 AI 參與健康決策的年代,懷疑精神本身就是一種必要的醫療素養。





