OpenAI 发布了一套名为 GeneBench-Pro 的新评估工具,旨在衡量人工智能模型在生物学计算方面的实际应用能力。与以往侧重于模型知识记忆或固定流程执行能力的基准测试不同,GeneBench-Pro 更注重在模拟真实科研场景下的效用,要求模型在面对“模糊、不完整、甚至包含干扰信息的数据环境”下进行判断和分析。
该测试套件涵盖了基因组学、定量生物学和转化医学等多个研究方向,共计包含 129 道题目。这些题目被划分为 10 个主要领域和 21 个子领域,涉及统计遗传学、群体遗传学、功能基因组学、蛋白质组学等广泛内容。每道题都向模型提供一份接近真实科研环境的数据集,附带简要的实验背景说明以及一个与后续决策相关的目标问题。模型需要自主完成数据探索、分析方法选择,并在此过程中不断调整策略,最终得出答案。
为了规避传统长流程基准测试中常见的评分不准确问题,OpenAI 在设计 GeneBench-Pro 时采用了合成数据作为核心构建方式。这是因为如果直接使用历史真实数据出题,常常会存在多条有效的分析路径,使得模型即使采用了错误的方法也可能偶然获得正确答案。而通过使用合成数据,OpenAI 可以完全控制底层因果结构和数据生成过程,从而更精确地评估模型是否真正理解了问题,而非仅仅通过“走捷径”来解决。
目前,OpenAI 已在 Hugging Face 上开放了 10 道代表性的 GeneBench-Pro 示例题目,并提供了一个交互式界面供外部研究人员进行体验。未来,官方计划将其中 50 道题目提供给 Artificial Analysis 进行独立的第三方评测,以验证不同模型在这一新基准测试中的实际表现。这项工作对于理解和提升AI在复杂科学计算领域的潜力至关重要,正如我们期待在足球世界杯上看到顶尖球队的精彩表现一样,我们也期待AI模型在科学探索中展现出卓越的能力。

世界杯下注深耕世界杯赔率领域,用心服务每一位用户。
世界杯下注专注世界杯竞猜,为用户提供专业可靠的体验。