“AI的一些醫療決策,實際上就是拋硬幣?!?/strong>
(資料圖片僅供參考)
哈佛醫學院的數據科學家Kun-Hsing Yu語出驚人。
他還補充道:
即便比賽中正確率達90%的獲獎模型,再用原數據集子集測試時,準確度最多60-70%,可謂慘敗。這讓我們很驚訝。
上述科學家的觀點來自Nature最近新發表的一篇文章。
內容對AI在醫療領域的可重復性提出了質疑,呈現諸多醫療領域及場景中,AI自帶的黑箱屬性造成的隱患。
更值得關注的是,盡管問題存在,但AI仍在醫療領域大規模推廣使用。
舉例來看,數以百計的美國醫院已在使用一種AI模型標記敗血癥早期癥狀,但在2021年,該模型被發現未能識別率高達67%。
所以,AI究竟帶來了哪些醫療隱患,如何解決?
繼續往下看。
△
我們先從哈佛醫學院的數據科學家Kun-Hsing Yu發現AI“拋硬幣”的始末聊起。
在醫療領域,AI用于診斷檢測人體一直質疑聲不斷,Kun-Hsing Yu此番研究也是希望有個直觀體感。
他選定了常見癌癥之一的肺癌,每年有350萬美國人因該病癥去世,若能更早通過CT掃描篩查,很多人可以免于死亡。
該領域的確備受機器學習界關注,為此,2017年業內還舉辦了面向肺癌篩查的競賽。
該活動歸屬于Kaggle的Data Science Bowl賽事,數據由主辦方提供,涵蓋1397位患者的胸部CT掃描數據。參賽團隊需開發并測試算法,最終大賽按準確率給予評獎,在官宣中,至少五個獲獎模型準確度90%以上。
但Kun-Hsing Yu又重新測試了一輪,然后震驚地發現,即便使用原比賽數據的子集,這些“獲獎”模型最高準確率卻下降到了60-70%。
△
上述狀況并非個例。
普林斯頓一位博士,Sayash Kapoor,在17個領域的329項研究中報告了可重復性失敗和陷阱,醫學名列其中。
基于研究,這位博士及自己的教授還組織了一個研討會,吸引了30個國家600名科研者參與。
一位劍橋的高級研究員在現場表示,他用機器學習技術預測新冠傳播流行趨勢,但因不同來源的數據偏差、訓練方法等問題,沒有一次模型預測準確。還有一位研究者也分享了——自己用機器學習研究心理課題,但無法復現的問題。
在該研討會上,還有參與者指出谷歌此前遇到的“坑”。
他們曾在2008年就利用機器學習分析用戶搜索所產生數據集,進而預測流感暴發。谷歌為此還鼓吹一波。
但事實上,它并未能預測2013年的流感暴發。一家獨立研究機構指出,該模型將一些流感流行無關的季節性詞匯進行了關聯和鎖定。2015年,谷歌停止了對外公開該趨勢預測。
Kapoor認為,就可重復性來說,AI模型背后的代碼和數據集都應可用并不出錯誤。那位研究新冠流行模型的劍橋ML研究者補充道,數據隱私問題、倫理問題、監管障礙也是導致可重復性出問題的病灶。
他們繼續補充道,數據集是問題根源之一。目前公開可用的數據集比較稀缺,這導致模型很容易產生帶偏見的判斷。比如特定數據集中,醫生給一個種族開的藥比另一個種族多,這可能導致AI將病癥與種族關聯,而非病癥本身。
另一個問題是訓練AI中的“透題”現象。因數據集不足,用于訓練模型的數據集和測試集會重疊,甚至該情況一些當事人還不知道,這也可能導致大家對模型的正確率過于樂觀。
△
盡管問題存在,但AI模型仍已被應用在實際診斷場景中,甚至直接下場看病。
2021年,一個名為Epic Sepsis Model的醫療診斷模型被曝出嚴重漏檢問題。
該模型用于敗血癥篩查,通過識別病人早期患病特征檢測,避免這種全身感染的發生,但密歇根大學醫學院研究者通過調查分析了27697人的就診情況,結果發現,該模型未能識別67%敗血癥病患。
此后,該公司對模型進行了大調整。
一位計算生物學家對此指出,該問題之所以較難解決,也同AI模型透明度不足有關?!拔覀冊趯嵺`中部署了無法理解的算法,也并不知道它帶什么偏見”,他補充道。
△
可以明確的是,只要上述問題一直未能解決,商業巨頭及相關創業項目也有些舉步維艱——
去年谷歌谷歌健康(Google Health)宣布人員拆分到各團隊,前幾天,谷歌孵化的生命健康子公司Verily又被曝裁員約15%。
對于這樣的現狀,一些研究者和業內人士也在著手改進醫療AI。
一方面,是構建靠譜的超大數據集。
涵蓋機構、國家和人口等多方面的數據,并向所有人開放。
這種數據庫其實已經出現了,比如英國和日本的國家生物庫,以及重癥病房遠程監護系統eICU合作的數據庫等。
就拿eICU合作研究數據庫來說,這里面大約有20萬次的ICU入院相關數據,由飛利浦醫療集團和MIT的計算生理學實驗室共同提供。
為了規范數據庫的內容,需要建立收集數據的標準。例如一個關于醫療結果伙伴關系的可觀測數據模型,讓各醫療機構能以相同的方式收集信息,這樣有利于加強醫療保健領域的機器學習研究。
當然,與此同時,也必須重視嚴格保護患者的隱私,而且只有當患者本人同意時,才有資格把他們的數據納入庫。
另一方面,想要提升機器學習質量的話,消除冗余數據也很有幫助。
因為在機器學習中,冗余數據不僅會延長運行時間、消耗更多資源;而且還很可能造成模型過擬合——也就是訓練出來的模型在訓練集上表現很好,但是在測試集上表現較差。
對于AI圈很熱門的預測蛋白質結構,這個問題已經得到了有效緩解。在機器學習過程中,科學家們成功地從測試集中刪除了和訓練集用到的過于相似的蛋白質。
but,各病人醫療數據之間的差異,并沒有不同蛋白質結構差異那么明顯。在一個數據庫中,可能有許許多多病情非常相似的個體。
所以我們需要想清楚到底向算法展示什么數據,才能平衡好數據的代表性和豐富性之間的關系。
哥本哈根大學的轉化性疾病系統生物學家S?ren Brunak如是評價。
除此之外,還可以請行業大佬們制定一個檢查表,規范醫療AI領域的研究開發步驟。
然后,研究人員就能更方便地搞清楚先做什么、再做什么,有條不紊地操作;還能Check一些可能遺漏的問題,比如一項研究是回顧性還是前瞻性的,數據與模型的預期用途是否匹配等等。
其實,現有已有多種機器學習檢查表,其中大部分是基于“EQUATOR Network”先提出的,這是一項旨在提高健康研究可靠性的國際倡議。
此前,上文提到的普林斯頓的Kapoor博士,也和團隊共同發表了一份包含21個問題的清單。
他們建議,對于一個預測結果的模型,研究人員得確認訓練集中的數據要早于測試集,這樣可以確保兩個數據集是獨立的,不會有數據重疊和相互影響。
[1]https://www.nature.com/articles/d41586-023-00023-2
[2]https://www.wired.com/story/machine-learning-reproducibility-crisis/
[3]https://mp.weixin.qq.com/s/TEoe3d9DYuO7DGQeEQFghA