OpenAI开源HealthBench，60个国家合力开发5000段真实对话

2025-05-13 06:56

imToken - 全球领先的去中心化钱包

推荐下载 领取价值高达 6,0000 元的数字货币盲盒，享受 20%手续费减免。提供安全、可信赖的非托管钱包服务！

立即下载 APP推荐

OpenAI开源了一个专门面向医疗大模型的测试评估集——HealthBench。与以往测试集不同的是，该测试集的5000段核心测试对话，全部由来自60个国家/地区的26个专业262名医生打造，极大增强了该测试集的难度、真实性以及丰富度。并且采用了多轮对话测试，而不是简单的答题或选择题模式。根据测试数据显示，大模型在医疗保健领域的表现有了显著提升。例如，从之前的GPT-3.5Turbo的16%到GPT-4o的32%，再到o3的60%，整体性能有了显著进步。尤其是小型模型的进步更为突出，GPT-4.1nano不仅在性能上超越了GPT-4o，而且成本降低了25倍。

imToken - 全球领先的去中心化钱包

推荐下载 领取价值高达 6,0000 元的数字货币盲盒，享受 20%手续费减免。提供安全、可信赖的非托管钱包服务！

OpenAI开源HealthBench，60个国家合力开发5000段真实对话

部分上线Binance Alpha的BSC生态代币拉升，

消息人士：Coinbase 数据泄露事件与印度外

Hyperliquid联创发文回应社区批评，强调“