99精品久久久久久中文字幕_久久久久久高潮国产精品视_婷婷丁香综合网_亚洲高清成人_欧美亚洲日本_青青草av在线播放

聚慕 - 專業醫療器械服務商
設為首頁 收藏本頁 人事招聘 關于聚慕
400-901-5099
全部商品分類
openai發布最新開源框架:醫療大模型評估瞄準現實情況
發布時間:2025-05-19 09:12:17

OpenAI近日發布了一款開源基準測試工具,旨在衡量大型語言模型在醫療健康領域的性能和安全性。

該公司在周一的博客文章中表示,這個名為HealthBench的大型數據集超越了傳統的考試式提問,它基于醫學專家認為最重要的內容,測試人工智能模型在真實醫療場景中的表現。

該公司在博文中寫道:"通用人工智能(AGI)的決定性影響之一是改善人類健康。如果開發和部署得當,大型語言模型有潛力擴大健康信息的獲取途徑,支持臨床醫生提供高質量的醫療服務,并幫助人們維護自身及其社區的健康。"

公司高管在博文中表示:"評估對于理解模型在醫療環境中的表現至關重要。學術界和業界雖已付出巨大努力,但許多現有評估未能反映真實場景,缺乏基于醫學專家意見的嚴格驗證,或者未能給最先進的模型留下改進空間。"

該公司表示,該評估框架是與來自60個國家的262名執業醫師合作構建的。

HealthBench內置了5000個真實的醫療對話,并根據醫生制定的評分標準對模型的回應進行評分,評估其安全性、適當性和準確性。

77411747366336684

該公司表示,HealthBench中的對話模擬了AI模型與個人用戶或臨床醫生之間的互動,這些對話通過合成生成和人工對抗測試產生。OpenAI稱,這些對話"旨在真實地模擬大型語言模型在現實世界中的使用情況:它們是多輪次的、多語種的,涵蓋了各種普通用戶和醫療服務提供者的角色,跨越了多個醫學專業和背景,并根據難度進行了篩選。"

HealthBench評估了48562項獨特的評分標準,涵蓋多個健康情境和行為維度,如準確性、指令遵循和溝通能力。

模型的回應由一個基于模型的評分器進行評估,以判斷是否滿足每個評分標準。基于滿足的標準所獲總分,與可能獲得的最高分數進行比較,得到模型回應的總體得分。

HealthBench的對話分為七個主題,例如緊急情況、處理不確定性或全球健康。每個主題都有其專屬的評分標準。

OpenAI 健康人工智能團隊負責人Karan Singhal在LinkedIn的帖子中表示,HealthBench的開發面向兩大受眾:一是AI研究界,旨在"形成共同標準并激勵開發有益于人類的模型";二是醫療機構,旨在"提供高質量證據,以更好地理解當前和未來的用例及局限性。"

OpenAI表示,HealthBench的開發旨在遵循幾項核心原則來評估醫療領域的AI系統。首先,該公司稱,評分應反映現實世界的影響。OpenAI在博文中表示:"這應超越考題范圍,捕捉復雜的現實生活場景和工作流程,以反映個人和臨床醫生與模型互動的方式。"

同時,評估還應反映醫療專業人士的標準和優先事項,為改進AI系統提供堅實的基礎。該公司指出:"應顯示出巨大的改進空間,從而激勵模型開發者持續提升性能。"

斯坦福AI 研究與科學評估中心執行主任Ethan Goh表示,HealthBench是推動醫療 AI 性能評估邁向正確方向的一步。Goh在LinkedIn的帖子中提到,許多先前的基準(如MedQA, MultiMedQA, MedMCQA, USMLE)依賴于選擇題,這些題目通常來自醫生資格考試。這些基準現已飽和,對于衡量AI模型改進的作用不大(即AI模型的得分已接近100%)。HealthBench通過一個用于任務級評估的基準彌補了這一空白,涵蓋了患者和臨床醫生的使用場景。"

Goh表示,許多行業參與者早已將其模型用于各種醫療保健應用,但坦率地說,在對AI回答進行穩健評估方面做得并不出色,因為他們急于部署一個可用的原型,而這在面向消費者或醫療服務提供者的使用場景中可能具有極高的風險。

OpenAI評估了自家模型以及來自谷歌、Anthropic、Meta 和 xAI (Grok) 的模型。總體而言,OpenAI 的 o3 模型表現最佳。但值得注意的是,也有行業人士警告稱,一家公司自行制定基準,并顯示其模型在該基準上表現最佳,這一做法存在風險。如果不公開其模型及數據集以供公眾審查,那無異于同時扮演法官、陪審團和行刑者的角色。在像醫療這樣討論生死的敏感領域,這種程度的不透明是不可接受的,這種不透明性可能會掩蓋模型的弱點。

54901747366342543

OpenAI在醫療健康領域動作頻頻,該公司正與賽諾菲和Formation Bio合作,構建一款由AI驅動的工具,旨在通過加速臨床試驗招募來改進藥物研發。Iodine Software也正與OpenAI合作,將包括GPT-4在內的生成式AI和大型語言模型整合到其廣泛的臨床管理和收入周期管理解決方案中。此外,Color Health也與OpenAI合作開發了生成式AI工具,包括一款AI驅動的癌癥輔助診療應用,雙方正合作測試計算機生成的癌癥患者個性化護理計劃。休斯頓德克薩斯大學健康科學中心 (UTHealth Houston) 也與OpenAI合作,構建和部署用于醫學培訓和患者床旁的算法。


注:文章來源于網絡,如有侵權,請聯系刪除

為您找貨 · 告訴我們您想要找什么商品?我們將盡快給您答復。
* 商品名稱:
* 您想了解:
  • 商品資料
  • 貨期
  • 價格
  • 安調
  • 其他
* 手機號碼:
* 姓名:
主站蜘蛛池模板: 免费观看黄色av | 成人午夜在线观看视频 | 五月天婷婷激情网 | 欧美日韩一区二区视频在线观看 | 91精品国产一区自在线拍 | 中文精品一区二区 | 欧美精品免费在线观看 | 偿还电影完整版在线观看 | 91精品视频观看 | 9191精品| 亚洲热在线观看 | 精品不卡一区 | 免费亚洲精品 | 日韩理论视频 | 国产精品19p | 香蕉国产片一级一级一级一级 | 成人性生交大片免费看0 | av.com在线| 午夜成人在线视频 | 国产精品色婷婷久久99精品 | 日本天天操 | 日韩精品毛片 | 欧美a级片在线观看 | 天天人人综合 | 欧美精品久久久久久久 | 亚洲国产一区二区三区在线观看 | 日韩精品字幕 | 久久综合se | 84pao国产成人高清在线 | 日本韩国在线观看 | 国产91成人| 一区二区三区视频免费看 | 一级午夜| 日本三级一区 | 色一情一乱一乱一区91av | 国际精品美女视频在线观看 | 日韩欧美在线播放 | 草久电影 | 天堂欧美城网站地址 | 国产精品19乱码一区二区三区 | 久操视频免费在线观看 |