首页 > 新车测评 > 新车测评 > 科学家用STEM数据集评测神经网络模型基础,加快人工智能实现进程

科学家用STEM数据集评测神经网络模型基础,加快人工智能实现进程

发布时间:2024-05-01 15:08:46来源: 15210273549

理工科 STEM 技能,是解决真实世界中诸多问题的基础。譬如,探索蛋白质结构、证明数学定理、发现新药物等。(编者注:STEM,即科学、技术、工程和数学四门学科英文首字母的缩写。)

 

而对于人工智能领域来说,理解视觉-文本的多模态信息,则是掌握 STEM 技能的关键。

 

可是,现有的数据集主要集中在检验模型解决专家级别难题的能力上,难以反映模型在基础知识方面的掌握情况。并且,其往往只考虑文本信息而忽略视觉信息,又或者只关注 STEM 中某单一学科的能力。

 

另外,由于缺少细粒度的信息,该领域的科学家也无法更好地分析与改进神经网络模型存在的薄弱之处。

 

所以,模型在这种情况下生成的内容,既无法让人充分信任,又不能帮助指导未来模型开发的方向。

 

更重要的是,由于缺乏和人类表现相关的数据,因此科学家也不可能获取到更具实际意义的模型表现参考,严重阻碍了人工智能的健康发展。

 

为了攻克上述局限性,近期,来自北京大学和美国圣路易斯华盛顿大学的研究团队,不仅成功完成了首个多模态 STEM 数据集的构建,还在此基础上实现对大语言模型与多模态基础模型的评测。

 

结果发现,即使是目前最先进的人工智能模型,其 STEM 基础水平也存在较大的提升空间,尚不具备解决更有难度的现实问题的能力。也就是说,与人类智能相比,目前人工智能的水平还有一定差距。

 

 

图丨综合评测效果(来源:ICLR 2024)

 

近日,相关论文以《测量神经网络模型的视觉-语言理工科技能》(Measuring Vision-Language STEM Skills of Neural Models)为题收录于 2024 国际表征学习大会(ICLR 2024,International Conference on Learning Representations 2024)上[1]。

 

据悉,该会议将于今年 5 月 7 日至 5 月 11 日在奥地利的首都维也纳召开。

 

STEM 数据集相关资源如下。

 

评测链接:
https://huggingface.co/spaces/stemdataset/stem-leaderboard

数据集页面:
https://huggingface.co/datasets/stemdataset/STEM

代码 GitHub:
https://github.com/stemdataset/STEM

 

北京大学博士研究生沈剑豪和袁野是共同第一作者,圣路易斯华盛顿大学王晨光助理教授和北京大学张铭教授担任共同通讯作者。王晨光助理教授博士毕业于北京大学,导师是张铭教授。

 

图丨相关论文(来源:ICLR 2024)

 

 

搭建 STEM 数据集,全方位评测神经网络模型的基础理工科能力

 

据王晨光介绍,课题组在确定研究目标和题目之后,便开始着手收集数据。

 

一向擅长于算法研究的团队成员,在面对爬虫编写、数据清洗和去重等工作时不免有些犯难。尽管如此,他们还是迎难而上,设计了多种用于数据清洗和去重的规则,最终成功获得了首个多模态 STEM 数据集。

 

图丨左起;王晨光、张铭、沈剑豪、袁野、Srbuhi Mirzoyan(来源:课题组)

 

值得一提的是,该数据集包含 448 个 STEM 技能,共 1073146 道题目,是目前涵盖面最广、包含题目最多的多模态 STEM 题目数据集。

 

图丨相关论文(来源:ICLR 2024)

 

接着,他们开始针对数据集进行评测与分析。

 

由于该数据集包含科目(科学、技术、工程、数学)、技能和年级三个维度标签,因此研究人员选择从这三个维度切入,对每个维度的数据数量分布、问题类型分布、问题长度分布等信息进行了详尽分析。

 

与此同时,他们也针对每个科目,按照 6:2:2 的比例,划分了训练集、验证集与未公开标签的测试集。

 

随后,研究人员又设计了模型评测方案。

 

其中,在选择评测指标时,他们除了关注准确率,还重点使用全球范围内最被认可的在线习题网站之一(https://www.ixl.com/)的考试分数。

 

后者是基于该网站千万用户的真实考试成绩得出的,与学生对知识的掌握程度呈正相关。当分数达到 90 以上(通常是小学生水平)时,就代表学生掌握了该技能。

 

“我们让模型模仿考生在线答题,再将得到的考试分数与真实人类的考试结果进行比较。”王晨光表示。

 

这也正是该工作的一大亮点。原因在于,过去将人类的表现与人工智能做比较时,前者都是由相对较小的样本(例如几百到几千人)总结出的,而该团队的结果却是基于千万量级的数据得到的,可信度更高。

 

然后,在模型评测环节,研究人员选择使用当前主流的大基础模型,包括 OpenAI 的多模态 CLIP 模型,以及大语言模型 ChatGPT 的 GPT3.5-Turbo 版本。

 

前者根据模型判断问题选项与图片的匹配程度来做出选择,后者则利用字幕模型为图片生成描述,并利用语言模型选择回答。

 

“我们评测了不同规模的 CLIP 模型与 GPT3.5-Turbo 模型,发现在 0 样本的设置下,模型的错误率很高。这表明现有模型无法直接真正地掌握这些知识。”王晨光表示。

 

进一步地,他们又利用划分出的训练数据集,对 CLIP 模型进行了微调,发现微调后的模型取得了显著的效果提升,综合准确率从 54.4% 提升至 76.3%。不过,这离 90 分依然有一定差距。

 

除此之外,该课题组还对模型结果的各个侧面进行了分析。

 

具体来说,首先,在年级层面,他们发现模型的测验分数随着题目所属年级的升高而降低,这符合年级越高的题目难度就越高的预期。

 

图丨测验分数随年级变化(来源:ICLR 2024)

 

其次,通过模型在不同技能上的评测表现,他们发现模型在抽象知识与复杂推理任务上的表现欠佳。

 

另外,过去的经验表明,模型应该对正确答案有着较高的预测置信度,这代表着模型的校准度较好。

 

“我们发现在我们的数据集上微调过的模型,表现出了良好的校准性,模型的置信度与准确率呈现清晰的相关性。”王晨光说。

 

另一方面,他们在研究模型规模与效果之间关系的过程中,也发现了清晰的正相关关系。

 

与此同时,他们还分析了模型表现与问题长度、问题类型、选项数量等其它因素之间的关系,发现随着问题变长、选项数量变多和样例数量变少,模型的表现都会下降。

 

除此之外,他们也评估了准确率与测验考试分数这两种指标的相关性,发现它们同样呈现出显著的正相关。

 

“最终,在整体的评价指标上,我们确认即使是微调过的模型,与人类对应年级学生水平相比也有显著差距。基于此,我们仍然需要寻找更有效的方法,使模型掌握 STEM 知识技能。”王晨光说。

 

图丨与人类表现比较(来源:ICLR 2024)

 

 

尝试推出更多评测大语言模型的数据集,加快通用人工智能实现的进程

 

显而易见,在该项研究中,STEM 数据集发挥了关键作用。

 

它不仅有利于模型增强 STEM 的基础知识,还能帮助研究人员评估模型对于基础 STEM 技能掌握的程度,并通过细粒度的数据分析有针对性地改进模型。

 

王晨光表示,他和团队期待该数据集可以进一步推动当前多模态大模型的研究,朝着模型能够充分理解 STEM 技能、解决真实场景下 STEM 问题的目标更进一步。

 

并且,也希望发布的测试集可以作为评测人工智能基础模型能力的标准评测之一,得到社区的广泛使用。

 

“更重要的是,我们提供的与大规模人类(主要是小学生)真实水平的比较,可以作为未来模型开发的目标和参考,以加快通用人工智能目标实现的进程。”他说。

 

目前,基于该数据集,该课题组已经成功评测了神经网络模型在基础教育中的理工科能力。

 

接下来,他们一方面计划继续收集数据,并尝试推出诸如人文学科、社会学科等领域的数据集,以更好地评测大语言模型在其他关键学科上的能力。

 

在这方面值得关注的是,该团队最近已经提出了一个新的社会学科数据集 Social,包含较大规模的文本评估数据,可用来评测大语言模型的社会学科基础能力。

 

进一步地,还设计了一种多智能体交互的方法,能够增强大语言模型在 Social 数据集上的表现。

 

相关论文以《衡量大语言模型的社会规范》(Measuring Social Norms of Large Language Models)为题收录于计算语言学协会北美分会 2024 年年会(NAACL 2024,2024 Annual Conference of the North American Chapter of the Association for Computational Linguistics)上[2]。

 

据悉,该会议将于今年 6 月 16 日至 6 月 21 日在墨西哥的首都墨西哥城召开。

 

另一方面,他们也打算通过研究模型在细粒度数据集上的表现,找出模型能力不足的部分,并研究如何改进。

 

此外,还希望通过结合检索的 RAG 方法、设计特殊的模型架构和训练方法,来进一步增强模型的基础能力。

 

“我们相信,只有先在基础理工科和文科领域实现突破,扎实打好基础,人工智能才有被进一步应用的可能性。”王晨光如是说。

新车测评更多>>

奇瑞也要造皮卡了,三种动力版本,主打野性,25年上市 2025款领克03+正式上市,19.88万起,还看什么GTI 定位潮趣智能GT轿车的海豹06 GT,如何吸引年轻人? 特斯拉Cybertruck不用国产了,长安帮你造了,19.99万起 吉利银河星舰7官图发布,搭最新雷神超级电混技术 奥迪的电动高性能轿车要来了,超800匹马力,还有旅行版 内行人奉劝大家,买手机首选华为,原因太真实 部分三星手机用户反馈安装11月更新后,无法使用安卓Auto功能 华为Nova13销量不错!和荣耀200系列相比哪个更香? 2025款宝马3系实车到店,外观辨识度高,车机系统升级,全系8AT 手握12万,五菱星光S纯电版和银河E5,选谁更划算? 比亚迪海豹06 GT到店,运动属性加持,轴距2820mm,有望近期上市 10万级插混SUV新选择,蓝电E5 PLUS上市,7.8秒可破百,值得买吗? 国产纯电超跑,售价168万,2秒级破百,仰望U9有何硬实力? 解读小鹏MONA M03,配双英伟达芯片+高阶智驾,不到16万,不香? 比亚迪王朝首款中大型旗舰MPV亮相,预售30万起,有颜值又有实力 全新海豹06GT来袭,预售15万起,4.9秒可破百,能成爆款? 块头都不小呀!比亚迪腾势N9、全新“夏”MPV现身目录 苹果推出新款iPad mini 现在即可订购 10月23日在实体店开售 一汽红旗:交付 EH7 荣耀版,助力体育强国 中国车企正在“颠覆”欧洲老牌制造商?小鹏、广汽纷纷“安抚” 第100万辆汽车下线 理想汽车成国内首个“百万辆新势力车企” AION V 打头阵,广汽开始筹谋欧洲市场 广汽集团亮相巴黎车展,全新欧洲市场计划推动全球化战略 AI应用持续深化 打破游戏行业“不可能三角” 一线城市楼市:全面回暖,未来可期 政策大调整!楼市迎来巨变,官方态度明确,购房者需注意! 公认“低价高配”,4款16G+512G旗舰手机推荐,轻松流畅用五年 Counterpoint:2024年Q3全球智能手机市场同比增长2%,摩托罗拉和华为引领市场增长 为小米15全面让路,小米14售价再创历史新低,米粉终于等到了