点击右上角微信好友

朋友圈

请使用浏览器分享功能进行分享

正在阅读:解决AI“高分低能”需要升级的是考核机制
首页> 地方频道> 科学 > 正文

解决AI“高分低能”需要升级的是考核机制

来源:科技日报2022-06-14 13:38

  解决AI“高分低能”需要升级的是考核机制

  目前部分人工智能沉迷刷榜,在基准测试时高分通过,表现优异,但实际应用中却还会犯一些非常基础的错误。

  ◎本报记者 华 凌

  近日,有媒体报道,目前部分人工智能沉迷刷榜,在基准测试时高分通过,表现优异,但实际应用中却还会犯一些非常基础的错误。这种沉迷刷榜,忽略实用性质的行为造成了部分AI模型“高分低能”的现象。那么,对于AI发展而言,基准测试是否必要?在实际应用中,基准测试哪些问题有待改进完善呢?

  AI模型哪家好,基准测试来说话

  AI模型应该如何衡量其性能?

  “目前AI模型能力的高低取决于数据,因为AI的本质是学习数据,输出算法模型。为了公平衡量AI能力,很多机构、企业甚至科学家会收集、设计不同的数据集,其中一部分喂给AI训练,得到AI模型,另外一部分数据用于考核AI模型的能力,这就是基准测试。”近日,西安电子科技大学电子工程学院教授吴家骥接受科技日报记者采访时表示。

  吴家骥介绍说,机器学习越来越多地用于各种实际应用场景,例如图像和语音识别、自动驾驶汽车、医学诊断等。因此,了解其在实践中的行为和性能变得非常重要。其鲁棒性和不确定性的高质量估计对于许多功能至关重要,尤其是在深度学习领域。为掌握模型的行为,研究人员要根据目标任务的基线来衡量其性能。

  2010年,基于ImageNet数据集的计算机视觉竞赛的推出,激发了深度学习领域一场算法与数据的革命。从此,基准测试成为衡量AI模型性能的一个重要手段。微软公司的计算机科学家马塞洛·里贝罗表示,基准测试应该是从业者工具箱中的一个工具,人们用基准来代替对于模型的理解,通过基准数据集来测试“模型的行为”。

  例如,在自然语言处理领域,GLUE科研人员让AI模型在包含上千个句子的数据集上训练,并在9个任务上进行测试,来判断一个句子是否符合语法,并分析情感,或者判断两个句子之间是否是逻辑蕴涵等,一度难倒了AI模型。随后,科研人员提高了基准测试难度,一些任务要求AI模型不仅能够处理句子,还要处理来自维基百科或新闻网站的段落后回答阅读理解问题。仅经过1年的发展,AI模型的性能从不到70分轻松达到90分,超越了人类。

  吴家骥表示:“科学研究要有科学问题、方法、计算、试验对比等要素。因此在进行科学研究,包括人工智能的科研中,也必须有计算与试验对比,也就是说AI算法的能力应该是可测量的,目的是验证研究方法的可行性、有效性。因此,基准测试很有必要,这样才可以公平验证AI算法能力的高低好坏,避免各说各话,‘王婆卖瓜自卖自夸’。”

  算法最终服务实践,而非刷榜

  有人说,高分是AI模型的兴奋剂。于是,有的人工智能为了取得好成绩而频频刷榜。

  微软公司2020年发布报告指出,包括微软、谷歌和亚马逊在内的各种sota模型包含诸多隐含错误,比如把句子里的“what's”改成“what is”,模型的输出结果就会截然不同,而在此前,从没有人意识到这些曾被评价还不错的商业模型竟会在应用中如此糟糕。显然,这样训练出的AI模型就像一个只会考试、成绩优异的学生,可以成功通过科学家设置的各种基准测试,却不懂为什么。

  “为了获得好成绩,研究人员可能会使用特殊的软硬件设置对模型进行调整和处理,让AI在测试中表现出色,但这些性能在现实世界中却无法施展。”西安电子科技大学研究员尚坤指出。

  在智能手机领域,我们谈及手机的使用体验时一般都不免会涉及手机的性能表现,这些性能通常会用跑分成绩来表现。然而,我们常常会遇到一款手机的跑分成绩处于排行榜领先水平,但是在实际使用过程中却出现动画掉帧、页面滑动卡顿、应用假死等的现象。全球顶级评测网站AnandTech的一篇报道曾对这种现象提出质疑,指出某品牌手机跑分时启动了“性能模式”,而在平时的使用中“性能模式”很少被调用开启。这种处理方式虽然能够获得高跑分,但是不能模拟用户真实的使用情景,这让基准测试不具有参考意义。

  尚坤认为,针对上述问题,改进基准的方法主要有:一种是增加更多的数据集,让基准变得更难。用没有见过的数据测试,这样才能判断AI模型是否能够避免过拟合。研究人员可创建一个动态数据收集和基准测试平台,针对每个任务,通过众包的方式,提交他们认为人工智能模型会错误分类的数据,成功欺骗到模型的样例被加入基准测试中。如果动态地收集数据增加标注,同时迭代式的训练模型,而不是使用传统的静态方式,AI模型应该可以实现更实质性的进化。

  尚坤说,另一种是缩小实验室内数据和现实场景之间的差距。基线测试无论分数多高,还是要用实际场景下的数据来检验,所以通过对数据集进行更贴近真实场景的增强和扩容使得基准测试更加接近真实场景。如ImageNet-C数据集,可根据16种不同的实际破坏程度对原有的数据集进行扩充,可以更好模拟实际数据处理场景。

  应用广泛,需尽快建立国家标准

  美国麻省理工学院Cleanlab实验室的研究指出,常用的10个作为基准的数据集中,有超过3%的标注是错误的,基于这些基准跑分的结果则无参考意义。

  “如果说,基准测试堪称人工智能领域的‘科举制’,那么,‘唯分数论’输赢,是不可能训练出真正的好模型。要打破此种现象,一方面需要采用更全面的评估方法,另一方面可以考虑把问题分而治之,比如用多个AI模型解决复杂问题,把复杂问题转化为简单确定的问题。简单且经过优化的基线模型往往优于更复杂的方法。谷歌的研究人员为常见的AI任务引入了不确定性基线库,来更好评估AI应用的稳健性和处理复杂不确定性的能力。”远望智库人工智能事业部部长、图灵机器人首席战略官谭茗洲指出。

  虽然行业正在改变对于基准的态度,但目前基准测试研究仍然是一个小众研究。谷歌在一份研究中采访了工业界和学术界的53位AI从业者,其中许多人指出,改进数据集不如设计模型更有成就感。

  谭茗洲表示,AI应用基准研究是构建国内统一大市场的内在需要,当前AI已经在国计民生的各类领域中得到广泛应用,更需要设立标准对AI模型进行全面有效的评估,片面追求和采用高分AI模型,可能会让模型在复杂极端场景下出现“智障”行为,并且可能由于训练和推理性能的低效,造成不良社会影响、经济损失和环境破坏。

  谭茗洲强调,AI应用基准研究关乎国家战略。针对重要领域,建立我国自己的AI基准测试标准、AI数据集、AI模型评估标准等迫在眉睫。

  据了解,西安电子科技大学的DvcLab也在AI基准测试这个领域进行了前瞻性研究,特别是针对AI应用基准测试中数据集的整体质量与动态扩展两个关键问题,正在开发可在线协作的数据标注与AI模型研发托管项目,并计划今年陆续开源,正在为构建国家AI基准评估标准体系进行积极探索。

[ 责编:王宏泽 ]
阅读剩余全文(

相关阅读

您此时的心情

光明云投
新闻表情排行 /
  • 开心
     
    0
  • 难过
     
    0
  • 点赞
     
    0
  • 飘过
     
    0

视觉焦点

  • 习近平主持中俄蒙元首第七次会晤

  • 习近平会见蒙古国总统呼日勒苏赫

独家策划

推荐阅读
点击羽绒服胸前的按钮,2秒即可速热,实现四档温度调节……1日,在哈尔滨举行的第七届中国国际新材料产业博览会现场,一款造型时尚的智能温控羽绒服吸引不少观展者驻足围观。
2025-09-02 10:23
当地时间9月1日,世界知识产权组织发布最新报告显示,今年的全球创新指数(GII)集群研究将风险资本交易活动作为一项新指标。全球创新指数集群排行榜于2017年创设,通过三项核心指标,识别世界级创新活动在当地的集中程度。
2025-09-02 10:21
强制性国家标准《电动自行车安全技术规范》昨起实施。为保障新国标在本市顺利推行,近日,市市场监管局组织召开在京销售电动自行车生产经营企业约谈指导会。为保障新国标平稳落地实施,本市市场监管部门将强化监督抽检,保障本市电动自行车产品质量安全。
2025-09-02 10:18
会空翻、格斗,能叠衣、调饮,善聊天、“思考”……前不久举行的2025世界机器人大会上,各类机器人本领“进化”、各显神通,展现了人工智能的巨大潜力。如今,从旅游出行的智能助手,到工厂培训的“最强大脑”,再到装备升级的有力支撑,人工智能扮演着越来越重要的角色。
2025-09-02 10:15
零碳园区的建设,对于推动我国经济社会发展全面绿色转型具有重要意义。节能降碳,光靠“外套保温”不够,在园区地上、地下,还有“血液循环”系统来“保持恒温”。
2025-09-02 10:15
在这条新的赛道上,中国青年正在奋力奔跑。
2025-09-02 09:59
记者近日从国家发展改革委获悉,围绕《关于深入实施“人工智能+”行动的意见》(以下简称《意见》),相关部门将制定出台一系列配套文件。具体来看,一方面将围绕《意见》提出的6大行动若干重点行业领域,分别制定“人工智能+”具体实施方案,进一步细化各行业目标任务、重点方向和工作举措。
2025-09-01 09:56
8月26日,国务院印发《关于深入实施“人工智能+”行动的意见》。大力发展智能农机、农业无人机、农业机器人等智能装备,提高农业生产和加工工具的智能感知、决策、控制、作业等能力,强化农机农具平台化、智能化管理。
2025-09-01 09:55
生产车间里,抽气泵凹槽上蒸汽弥漫,极细的金属导体经过氯化液处理,三次涂漆后,再附上绝缘漆膜,最终制成直径仅0.012毫米的成品电磁线。 银西产业园甘肃康视达隐形眼镜有限公司的厂房内,智能化生产线高效运转,无人搬运车有序穿梭,整个流程高度自动化。
2025-09-01 09:53
江南大学是一所以轻工特色见长的“双一流”建设高校,发酵工程学科凭借深厚的学科积淀和前瞻性布局,成功跻身国家“A+”学科行列。学校与发酵行业龙头企业共建16个联合研究中心,聘请16名教授级高工和国家级科创人才担任工程技术导师,推动研究生深入产业一线。
2025-09-01 09:52
在山东省大学生创新大赛(2025)暨中国国际大学生创新大赛(2025)山东赛区比赛中,哈尔滨工业大学(威海)材料科学与工程学院参赛队共荣获10项金奖、1项银奖。 山东省特种焊接技术重点实验室是山东省焊接领域唯一的重点实验室,突出在特种环境、特种材料以及特种结构方面的焊接技术及装备制造研究。
2025-09-01 09:51
当前,全球科技革命与产业变革加速演进,人工智能(AI)正从“辅助工具”跃升为驱动社会变革的核心引擎。
2025-08-29 09:40
中国科幻完成了从文学、影视到互动娱乐的全产业链突破,步入业态融合与创新驱动的关键阶段。科幻阅读作为科幻产业链上游的基础产业,需率先探索高质量发展路径。
2025-08-29 09:38
作为太阳系中目前已知唯一拥有生命的天体,地球宜居性的形成与演化是地球系统科学研究的核心议题。
2025-08-29 09:35
国家气候中心统计数据显示,截至8月28日,华北雨季已持续55天,较常年雨季长度(30天)明显偏长。截至8月25日,华北雨季监测区累计雨量较雨季常年值偏多131%。
2025-08-29 09:18
8月29日是七夕节,在古代神话中,牛郎和织女因为被天上的银河隔开,只有在每年农历的七月初七才能通过鹊桥相会。那么,银河到底有多宽?
2025-08-29 09:17
浙江大学物理学院王浩华团队、杭州国际科创中心郭秋江超导量子计算团队联合清华大学邓东灵团队,在百比特超导量子芯片上观测到,“预热化”机制能有效抵御热激发扰动,使有限温度下的拓扑边缘态展现出了足够的稳定性,为保护脆弱的量子信息提供了新可能。
2025-08-28 09:47
6G时代,无论在城市楼群还是偏远山区,都需要数据的高速传输和快速接入,但基于纯电子技术的传统无线设备带宽受限、频段单一,难以动态调度频谱资源。
2025-08-28 09:47
8月26日,《关于深入实施“人工智能+”行动的意见》发布。为何要出台这份文件?这份文件重点说了些什么?记者采访了国家发展改革委参与文件起草的专家。
2025-08-28 09:45
从“人工智能+”发展进展来看,朱克力认为,在政策层面,形成了举国体制,算力基础设施、数据供给、人才体系等基础支撑全面强化。
2025-08-28 09:37
加载更多