解决AI“高分低能”需要升级的是考核机制

来源：科技日报2022-06-14 13:38

　　目前部分人工智能沉迷刷榜，在基准测试时高分通过，表现优异，但实际应用中却还会犯一些非常基础的错误。

　　◎本报记者华凌

　　近日，有媒体报道，目前部分人工智能沉迷刷榜，在基准测试时高分通过，表现优异，但实际应用中却还会犯一些非常基础的错误。这种沉迷刷榜，忽略实用性质的行为造成了部分AI模型“高分低能”的现象。那么，对于AI发展而言，基准测试是否必要？在实际应用中，基准测试哪些问题有待改进完善呢？

　　AI模型哪家好，基准测试来说话

　　AI模型应该如何衡量其性能？

　　“目前AI模型能力的高低取决于数据，因为AI的本质是学习数据，输出算法模型。为了公平衡量AI能力，很多机构、企业甚至科学家会收集、设计不同的数据集，其中一部分喂给AI训练，得到AI模型，另外一部分数据用于考核AI模型的能力，这就是基准测试。”近日，西安电子科技大学电子工程学院教授吴家骥接受科技日报记者采访时表示。

　　吴家骥介绍说，机器学习越来越多地用于各种实际应用场景，例如图像和语音识别、自动驾驶汽车、医学诊断等。因此，了解其在实践中的行为和性能变得非常重要。其鲁棒性和不确定性的高质量估计对于许多功能至关重要，尤其是在深度学习领域。为掌握模型的行为，研究人员要根据目标任务的基线来衡量其性能。

　　2010年，基于ImageNet数据集的计算机视觉竞赛的推出，激发了深度学习领域一场算法与数据的革命。从此，基准测试成为衡量AI模型性能的一个重要手段。微软公司的计算机科学家马塞洛·里贝罗表示，基准测试应该是从业者工具箱中的一个工具，人们用基准来代替对于模型的理解，通过基准数据集来测试“模型的行为”。

　　例如，在自然语言处理领域，GLUE科研人员让AI模型在包含上千个句子的数据集上训练，并在9个任务上进行测试，来判断一个句子是否符合语法，并分析情感，或者判断两个句子之间是否是逻辑蕴涵等，一度难倒了AI模型。随后，科研人员提高了基准测试难度，一些任务要求AI模型不仅能够处理句子，还要处理来自维基百科或新闻网站的段落后回答阅读理解问题。仅经过1年的发展，AI模型的性能从不到70分轻松达到90分，超越了人类。

　　吴家骥表示：“科学研究要有科学问题、方法、计算、试验对比等要素。因此在进行科学研究，包括人工智能的科研中，也必须有计算与试验对比，也就是说AI算法的能力应该是可测量的，目的是验证研究方法的可行性、有效性。因此，基准测试很有必要，这样才可以公平验证AI算法能力的高低好坏，避免各说各话，‘王婆卖瓜自卖自夸’。”

　　算法最终服务实践，而非刷榜

　　有人说，高分是AI模型的兴奋剂。于是，有的人工智能为了取得好成绩而频频刷榜。

　　微软公司2020年发布报告指出，包括微软、谷歌和亚马逊在内的各种sota模型包含诸多隐含错误，比如把句子里的“what's”改成“what is”，模型的输出结果就会截然不同，而在此前，从没有人意识到这些曾被评价还不错的商业模型竟会在应用中如此糟糕。显然，这样训练出的AI模型就像一个只会考试、成绩优异的学生，可以成功通过科学家设置的各种基准测试，却不懂为什么。

　　“为了获得好成绩，研究人员可能会使用特殊的软硬件设置对模型进行调整和处理，让AI在测试中表现出色，但这些性能在现实世界中却无法施展。”西安电子科技大学研究员尚坤指出。

　　在智能手机领域，我们谈及手机的使用体验时一般都不免会涉及手机的性能表现，这些性能通常会用跑分成绩来表现。然而，我们常常会遇到一款手机的跑分成绩处于排行榜领先水平，但是在实际使用过程中却出现动画掉帧、页面滑动卡顿、应用假死等的现象。全球顶级评测网站AnandTech的一篇报道曾对这种现象提出质疑，指出某品牌手机跑分时启动了“性能模式”，而在平时的使用中“性能模式”很少被调用开启。这种处理方式虽然能够获得高跑分，但是不能模拟用户真实的使用情景，这让基准测试不具有参考意义。

　　尚坤认为，针对上述问题，改进基准的方法主要有：一种是增加更多的数据集，让基准变得更难。用没有见过的数据测试，这样才能判断AI模型是否能够避免过拟合。研究人员可创建一个动态数据收集和基准测试平台，针对每个任务，通过众包的方式，提交他们认为人工智能模型会错误分类的数据，成功欺骗到模型的样例被加入基准测试中。如果动态地收集数据增加标注，同时迭代式的训练模型，而不是使用传统的静态方式，AI模型应该可以实现更实质性的进化。

　　尚坤说，另一种是缩小实验室内数据和现实场景之间的差距。基线测试无论分数多高，还是要用实际场景下的数据来检验，所以通过对数据集进行更贴近真实场景的增强和扩容使得基准测试更加接近真实场景。如ImageNet-C数据集，可根据16种不同的实际破坏程度对原有的数据集进行扩充，可以更好模拟实际数据处理场景。

　　应用广泛，需尽快建立国家标准

　　美国麻省理工学院Cleanlab实验室的研究指出，常用的10个作为基准的数据集中，有超过3%的标注是错误的，基于这些基准跑分的结果则无参考意义。

　　“如果说，基准测试堪称人工智能领域的‘科举制’，那么，‘唯分数论’输赢，是不可能训练出真正的好模型。要打破此种现象，一方面需要采用更全面的评估方法，另一方面可以考虑把问题分而治之，比如用多个AI模型解决复杂问题，把复杂问题转化为简单确定的问题。简单且经过优化的基线模型往往优于更复杂的方法。谷歌的研究人员为常见的AI任务引入了不确定性基线库，来更好评估AI应用的稳健性和处理复杂不确定性的能力。”远望智库人工智能事业部部长、图灵机器人首席战略官谭茗洲指出。

　　虽然行业正在改变对于基准的态度，但目前基准测试研究仍然是一个小众研究。谷歌在一份研究中采访了工业界和学术界的53位AI从业者，其中许多人指出，改进数据集不如设计模型更有成就感。

　　谭茗洲表示，AI应用基准研究是构建国内统一大市场的内在需要，当前AI已经在国计民生的各类领域中得到广泛应用，更需要设立标准对AI模型进行全面有效的评估，片面追求和采用高分AI模型，可能会让模型在复杂极端场景下出现“智障”行为，并且可能由于训练和推理性能的低效，造成不良社会影响、经济损失和环境破坏。

　　谭茗洲强调，AI应用基准研究关乎国家战略。针对重要领域，建立我国自己的AI基准测试标准、AI数据集、AI模型评估标准等迫在眉睫。

　　据了解，西安电子科技大学的DvcLab也在AI基准测试这个领域进行了前瞻性研究，特别是针对AI应用基准测试中数据集的整体质量与动态扩展两个关键问题，正在开发可在线协作的数据标注与AI模型研发托管项目，并计划今年陆续开源，正在为构建国家AI基准评估标准体系进行积极探索。

[ 责编：王宏泽 ]

阅读剩余全文（）

您此时的心情

新闻表情排行日/周

开心

0
难过

0
点赞

0
飘过

0

视觉焦点

“五一”小长假旅游消费旺。
天津增加充电设施供给，续航“五一”返程高峰。

最热文章

推荐阅读

5年热度上升近37倍中国科幻“出海”引关注

近年来，国产科幻影视剧《流浪地球2》和《三体》火热“出圈”，获得全球关注。

2024-04-30 03:05

传统人工合成塑料可“老树发新芽”

酚醛树脂是人类历史上第一种人工合成塑料，自诞生以来已经历了一个世纪。

2024-04-30 03:05

云南农大破解核桃油抗氧化难题

近日，云南农业大学盛军、田洋教授课题组突破核桃油抗氧化难题，研发出替代植脂末的核桃植物基奶粉，并实现成果转化和应用，相关研究成果在国际期刊《食品工程学报》发表。

2024-04-30 03:05

大地奔雷铁“军”向前——记国家卓越工程师、中国中车集团总工程师王军

有一个名字，总是让人心生自豪——广袤大地纵横驰骋，“流动的中国”以最直观的方式，将“中国速度”呈现给世界。

2024-04-30 03:05

为未来世界的智能化开辟新可能——2024中关村论坛年会“人工智能主题日”侧记

在2024中关村论坛年会“人工智能主题日”活动现场，多项人工智能领域前沿技术、数据要素、生态培育、产教融合、场景应用、监管治理等多方面成果精彩亮相，百余位人工智能领域专家围绕大模型、具身智能、可信AI等国内外前沿热点话题展开讨论。

2024-04-30 03:05

科学教育应更注重探索过程

光明日报教育周刊近期推出的《科学教育提质正当时》系列报道，从师资培养、课程设置、资源建设等多方面，对如何更好进行中小学科学教育展开了持续讨论，并提出了一系列推动科学教育发展的有效建议，在科学界、科学教育界引发热议。

2024-04-30 03:30

我国独角兽企业已超360家

“中国共有独角兽企业369家。《中国独角兽企业发展报告（2024年）》由中关村独角兽企业发展联盟联合毕马威企业咨询（中国）有限公司、长城战略咨询、北京方迪经济发展研究院、清华大学中国科技政策研究中心共同发布。

2024-04-29 10:09

神十七航天员即将天外归来

截至目前，神舟十七号航天员乘组已完成全部既定任务，将于4月30日乘坐神舟十七号载人飞船返回东风着陆场。

2024-04-29 10:07

探索航空产业高质量发展新路径

2024年3月5日，习近平总书记在参加十四届全国人大二次会议江苏代表团审议时强调，要牢牢把握高质量发展这个首要任务，因地制宜发展新质生产力。以创新为核心，通过技术创新、管理创新和模式创新，提升生产力整体水平，推动航空产业加快发展。

2024-04-29 10:06

从“巧手”到“行家里手”

以前，铸钛大炉坩埚容易损坏，需要每月更换一次，公司每年需要投入不少资金购买新坩埚。我和设备专家一起夜以继日地攻关，终于编制出了一套新的铸钛炉熔炼操作法，提高了坩埚使用率，每年可节约坩埚费用50万元左右。

2024-04-29 10:05

珍稀物种静候探索揭秘

2024成都世园会开幕以来，邛崃分会场龙门山生物多样性博览园迎来游客参观热。借着成都世园会的契机，成都梳理整合龙门山生物多样性资源，规划建设了占地1172亩的龙门山生物多样性博览园，无边界地呈现龙门山生物多样性。

2024-04-29 10:04

科技赋能考古再现千年楚文化风采

令张治国兴奋的是，武王墩一号墓椁室盖板上已发现和采集墨书文字100多句、近千字，是典型的楚系文字。“对于南方潮湿环境下考古出土的丝绸保护而言，从饱水到干燥的过程，可以说是生死攸关。

2024-04-28 10:23

加强数据资产全过程管理

对此，《指导意见》明确了依法合规管理数据资产、明晰数据资产权责关系、完善数据资产相关标准、加强数据资产使用管理、稳妥推动数据资产开发利用等12方面主要任务。该负责人表示，为加强数字资产管理，《指导意见》突出以下基本原则：　　坚持确保安全与合规利用相结合。

2024-04-28 10:19

落实“双碳”行动建设美丽中国

为落实碳达峰碳中和目标，我国将应对气候变化作为国家战略，纳入生态文明建设整体布局和经济社会发展全局，加强顶层设计。

2024-04-28 10:17

年轻人徒手“搓”出大科学装置

复旦大学邯郸校区的一个小院里，藏着一件“镇院神器”——上海电子束离子阱装置。

2024-04-28 10:04

春耕新变｜云南红河：哈尼梯田开启“春忙”新模式

4月19日，元阳县沙拉托乡松树寨村的村民在哈尼梯田开展春耕播种。（张艳摄）　　在元阳县沙拉托乡的哈尼梯田缓冲区，当地举行“开秧门”活动，村民们在田间地头祈福，他们载歌载舞，迎接春耕的到来。

2024-04-28 10:03

贵州发现菊科植物新种马岭河小苦荬

研究人员表示，马岭河小苦荬的发现，表明兴义世界地质公园具有丰富的生物多样性，值得开展进一步系统性的调查研究。

2024-04-28 09:59

同济医院廖家智：医工交叉成为医学科技创新的重要途径

同济医院党委副书记

2024-04-26 17:38

“神箭”再出征搭建安全“天梯”

从1999年起，有着“神箭”称号的长二F火箭全程参与了中国载人航天工程“三步走”战略的每一步。它用100%的成功率，为航天员搭建出一条安全“天梯”。

2024-04-26 09:33

人形机器人何时走入百姓家

近期，人工智能（AI）+机器人赛道广受关注。尤翔宇表示，梳理人形机器人产业技术发展脉络，主要有底层硬件、运动控制和具身智能3条路线。优必选相关负责人表示，未来，公司将聚焦人形机器人的三大应用场景，包括工业制造、商用服务和家庭陪伴。

2024-04-26 09:41

加载更多

全部导航

解决AI“高分低能”需要升级的是考核机制

相关阅读

您此时的心情

视觉焦点

最热文章

独家策划