当前讯息:国内首个大模型评测数据集(MMCU)发布 可提升大语言模型中文理解能力
【资料图】
【网易科技5月22日报道】近日,以"大模型实际应用与场景化落地"为主题的研讨沙龙和产品发布会在甲骨易第三空间举行。发布会现场,甲骨易AI研究院推出了一款名为"超越"(Massive Multitask Chinese Understanding,简称MMCU)的高质量中文评测数据集。据介绍,该数据集是一项大规模的多任务测试数据集,填补了中文大语言模型能力测试的空白。
据了解,"超越"MMCU数据集的推出是为了更好地评估大语言模型对中文的理解能力,并帮助提升中文大语言模型的技术水平。目前,国内的大语言模型与国际水平仍有差距,而"超越"MMCU数据集的推出旨在帮助发现模型的缺陷并评价其能力。
发布会现场,产业界代表们强调,由于对大型语言模型的评估存在局限性和不足,导致了对各大厂商之间的差异性缺乏全面的了解,并且限制了国内大型模型和人工智能产业的发展。因此,需要找到大型模型的缺陷并更好地理解包括中文在内的人类语言文本。在评估中文大语言模型方面,国外在英文大语言模型上已经有一些较为完善的评测方式,但对于中文大语言模型的评测仍然存在空白。
会上指出,数据量和数据分布对于训练模型的配比方式非常重要,但是目前的数据集中,中文语料的比例较低,这导致中文模型的理解能力不足。为了提升中文能力,国内的研究机构和人工智能企业正在增补中文语料。与此同时,对中文大语言模型进行客观公正的评价非常重要,以使其变得更加强大。目前国内厂商仍然处于模仿和跟随的阶段,虽然未来有望超越国际水平,但目前没有经过实践验证。
据悉,"超越"MMCU数据集的推出正好满足了这一需求,可以通过综合评估模型在多个学科上的知识广度和深度,帮助研究人员找出模型的缺陷,并对模型的能力进行评分。通过这样的评价方法,可以更好地了解不同厂商之间的大模型技术能力的差异。(江淼)
关键词:
相关阅读
-
当前讯息:国内首个大模型评测数据集(M...
国内首个大模型评测数据集(MMCU)发布可提升大语言模型中文理解能... -
挑大梁 走在前丨强力推进创新深化、改...
挑大梁走在前丨强力推进创新深化、改革攻坚、开放提升——浙江构筑... -
今天你垃圾分类了吗?住建部:2025年基...
住建部:2025年基本实现垃圾分类全覆盖今天(23日),住房和城乡建... -
环球快讯:周育先受邀参加第三届江苏发展...
5月20日,中国建材集团党委书记、董事长周育先受邀参加第三届江苏发... -
古老剧种唱响新声新韵 诗意讲述生态文...
5月21日晚,第三届全国戏曲(南方片)会演参演剧目,由云南省玉溪市... -
教育部组织开展职业院校优秀教师代表202...
为深入贯彻落实党的二十大精神,推动职业教育教师队伍建设,结合202... -
环球今日讯!中央对地方转移支付突破10...
什么是基层“三保”?一般来说,“三保”指的是保基本民生、保工资... -
紫气东来,魅族全新晨曦紫配色,再次诠...
相信很多人对于紫色这个浪漫的色彩都有着很强的喜爱之情,所以手机... -
欧盟将立法严格监管人工智能技术应用
欧洲议会两个委员会近日通过《人工智能法案》提案的谈判授权草案,... -
当前关注:一什么鱼塘填量词大全_一什么...
1、一(方)鱼塘。2、方fāng(ㄈㄤ)四个角都是90度直角的四边形或... -
江苏省首个快手直播电商集聚区落户苏州常熟
近日,江苏省首个快手直播电商集聚区正式落户常熟,线上“常熟直播... -
股票怎么赢利?股票赢利多少抛合适?股...
投资股票的获利来源有二:一是公司分配盈余时股东所得的股利,一是... -
附息国债与贴现国债的区别是什么?记账...
附息是指债券券面上附有息票,定期按息票利率支付利息,是一种债券... -
新债停牌之后怎么办?新债130停牌后还能...
新债停牌后投资者也不用惊慌,耐心等待停牌时间过去后,新债还可以... -
1-4月江苏RCEP签证出口货值居全国首位|...
南京海关利用RCEP促进外贸,1-4月出口货值全国第一,企业积极拓展海... -
股票买入6种委托方式?限价委托和市价委...
1、证券代理商为投资代理交易股票,在很多时候不需要投资人为买卖垫... -
天天热议:进淄“赶烤” 畅游齐鲁辽东大...
“世界上没有什么事是一顿烧烤不能解决的。如果有,那就两顿”,正... -
焦点信息:听云南 | 丽江荒野之国 一...
编者按:每朵花开都有声音,每段旅行都有意义,让彩云之南在声波中... -
天天速看:大陆集团与Aurora合作自动驾...
大陆集团与Aurora合作自动驾驶卡车运输系统 -
戴姆勒卡车一季度销量增长15% 收入大增25%
戴姆勒卡车一季度销量增长15%收入大增25%