ChatGPT与学生同台竞技，结果令人担忧_NBA_体育

　　 ChatGPT与学生同台竞技，结果令人担忧

　　编者按：在人工智能浪潮席卷全球的今天，ChatGPT等大语言模型的能力边界究竟在哪里？哈佛大学一项最新研究给出了耐人寻味的答案：在分子生物学高阶课程中，博士生们的表现全面碾压GPT-4o模型，平均领先两个字母等级。这项研究犹如一面棱镜，折射出当前AI在科学推理与批判性思维领域的真实短板——即便是在记忆基础概念时，ChatGPT仍落后学生16个百分点；而在需要理解、应用和分析的开放式问题上，其得分更比人类学者低21个百分点。当科技巨头们不断吹捧AI的“博士级智能”时，这项实证研究提醒我们：在科学探索的深水区，人类认知的复杂光谱依然难以被算法完全复刻。但值得注意的是，研究使用的仍是去年5月的模型版本，这场人机智力竞赛的格局，或许正在我们看不见的实验室里悄然改写。

　　哈佛大学研究人员开展的一项研究中，该校研究生在成绩表现上领先ChatGPT模型超过两个字母等级。

　　研究人员原本预期，OpenAI的聊天机器人“在较低认知水平上会与博士生表现相当”，他们假设ChatGPT能够充分记忆学习材料，但在应对需要批判性思维的问题时会遇到困难。

　　然而，ChatGPT的表现被学生们远远甩在身后，因为该模型在“记忆”和“应用”类任务上举步维艰——尽管研究人员通过优化提示词提升了ChatGPT的部分表现。

　　研究人员在论文中写道：“我们发现ChatGPT在解读科学图表和原始数据方面存在惊人缺陷，无论是简答题还是选择题皆然，甚至在使用专门为图像解读设计的版本时也是如此。”

　　这项研究以哈佛大学分子生物学原理课程的学生为对象，这门课程编号为200级，需要修读整个学期。

　　研究期间，学生们需要保持至少80分的成绩——这是博士生的及格分数线。

　　而人工智能的答案则由GPT-4o生成，该模型于2024年5月由OpenAI发布。

　　为确保学生本人未使用人工智能，研究人员特意选取了2022年的课外作业——那时AI尚未被广泛普及应用。

　　博士生在所有认知层级上都完胜ChatGPT。

　　在“记忆”类问题上，聊天机器人表现尚可，但仍显著落后于学生。研究人员指出，这类问题本就不具挑战性，旨在鼓励学生总结技术方法。

　　学生在该类题目得分率为98%，ChatGPT仅为82%。

　　与此同时，学生在长篇设计题上的表现大幅超越ChatGPT。在填空题方面，学生也同样领先。

　　ChatGPT在“理解”“应用”和“分析”类问题上表现尤为糟糕，平均得分仅66%，而博士生的平均分高达87%。

　　按照研究人员的说法，ChatGPT本应“挂科”，其糟糕成绩“主要源于算法在‘应用’层面的显著弱势——这指的是识别、论证和描述学生通过课程学习已掌握的实验对照方法。”

　　Reddit科学论坛的评论者们对此并不感到震惊。

　　一位批评者写道：“任何花时间使用过大语言模型的人都该知道，它们距离达到经验丰富人类的水平还差得远。”

　　“即使是编程这类高度聚焦的任务，你也必须高度警惕代码中的幻觉问题或不良实践。”

　　另一位参与者反问：“这真的意外吗？声称大语言模型具有‘博士水平’的只有那些AI营销人员。它们连基础物理化学题都经常解错，研究级生物学问题超出其能力范围难道不是明摆着的吗？”

　　不过，几位专家指出实验中使用的ChatGPT模型已经过时。

　　有人发帖称：“必须指出的是，这项研究进行时，ChatGPT等大语言模型的水平与现在根本不可同日而语。”

　　“作为每天使用大语言模型并领导重要研究团队的人，我们发现当前模型与一年前相比已有数量级的进步。现在它无需复杂提示就能解决许多科学与工程问题。”

　　《新闻周刊》已通过电子邮件联系研究人员和OpenAI寻求置评。

打卡网声明：未经许可，不得转载。

为您推荐：

资讯

足球

NBA

ChatGPT与学生同台竞技，结果令人担忧

为您推荐：

关于我们

快速链接

联系我们