2026-04-17 18:05来源:本站

编者按:在人工智能浪潮席卷全球的今天,ChatGPT等大语言模型的能力边界究竟在哪里?哈佛大学一项最新研究给出了耐人寻味的答案:在分子生物学高阶课程中,博士生们的表现全面碾压GPT-4o模型,平均领先两个字母等级。这项研究犹如一面棱镜,折射出当前AI在科学推理与批判性思维领域的真实短板——即便是在记忆基础概念时,ChatGPT仍落后学生16个百分点;而在需要理解、应用和分析的开放式问题上,其得分更比人类学者低21个百分点。当科技巨头们不断吹捧AI的“博士级智能”时,这项实证研究提醒我们:在科学探索的深水区,人类认知的复杂光谱依然难以被算法完全复刻。但值得注意的是,研究使用的仍是去年5月的模型版本,这场人机智力竞赛的格局,或许正在我们看不见的实验室里悄然改写。
哈佛大学研究人员开展的一项研究中,该校研究生在成绩表现上领先ChatGPT模型超过两个字母等级。
研究人员原本预期,OpenAI的聊天机器人“在较低认知水平上会与博士生表现相当”,他们假设ChatGPT能够充分记忆学习材料,但在应对需要批判性思维的问题时会遇到困难。
然而,ChatGPT的表现被学生们远远甩在身后,因为该模型在“记忆”和“应用”类任务上举步维艰——尽管研究人员通过优化提示词提升了ChatGPT的部分表现。
研究人员在论文中写道:“我们发现ChatGPT在解读科学图表和原始数据方面存在惊人缺陷,无论是简答题还是选择题皆然,甚至在使用专门为图像解读设计的版本时也是如此。”
这项研究以哈佛大学分子生物学原理课程的学生为对象,这门课程编号为200级,需要修读整个学期。
研究期间,学生们需要保持至少80分的成绩——这是博士生的及格分数线。
而人工智能的答案则由GPT-4o生成,该模型于2024年5月由OpenAI发布。
为确保学生本人未使用人工智能,研究人员特意选取了2022年的课外作业——那时AI尚未被广泛普及应用。
博士生在所有认知层级上都完胜ChatGPT。
在“记忆”类问题上,聊天机器人表现尚可,但仍显著落后于学生。研究人员指出,这类问题本就不具挑战性,旨在鼓励学生总结技术方法。
学生在该类题目得分率为98%,ChatGPT仅为82%。
与此同时,学生在长篇设计题上的表现大幅超越ChatGPT。在填空题方面,学生也同样领先。
ChatGPT在“理解”“应用”和“分析”类问题上表现尤为糟糕,平均得分仅66%,而博士生的平均分高达87%。
按照研究人员的说法,ChatGPT本应“挂科”,其糟糕成绩“主要源于算法在‘应用’层面的显著弱势——这指的是识别、论证和描述学生通过课程学习已掌握的实验对照方法。”
Reddit科学论坛的评论者们对此并不感到震惊。
一位批评者写道:“任何花时间使用过大语言模型的人都该知道,它们距离达到经验丰富人类的水平还差得远。”
“即使是编程这类高度聚焦的任务,你也必须高度警惕代码中的幻觉问题或不良实践。”
另一位参与者反问:“这真的意外吗?声称大语言模型具有‘博士水平’的只有那些AI营销人员。它们连基础物理化学题都经常解错,研究级生物学问题超出其能力范围难道不是明摆着的吗?”
不过,几位专家指出实验中使用的ChatGPT模型已经过时。
有人发帖称:“必须指出的是,这项研究进行时,ChatGPT等大语言模型的水平与现在根本不可同日而语。”
“作为每天使用大语言模型并领导重要研究团队的人,我们发现当前模型与一年前相比已有数量级的进步。现在它无需复杂提示就能解决许多科学与工程问题。”
《新闻周刊》已通过电子邮件联系研究人员和OpenAI寻求置评。