海天瑞声成为“方升”大模型基准测试首批合作伙伴
创始人
2025-07-11 18:20:43
0

近期,中国信通院发布“方升”大模型评测体系,旨在建立业界大模型基准测试统一的“度量衡”。“方升”测试体系涵盖大模型基准测试的关键四要素,即测试指标、测试方法、测试数据集和测试工具,目前已形成《大规模预训练模型基准测试-总体技术要求》标准。


“方升”大模型基准测试体系由中国信通院联合北京智源研究院、认知智能全国重点实验室和天津大学共同发布。海天瑞声、国网智能电网研究院、首都之窗、天津大学、中国电信研究院、中国联通软件研究院、华为、甲骨易、东方财富9家单位成为“方升”大模型基准测试首批合作伙伴。



当前,大模型正引领着新一轮技术革命,大模型的全方位测评对于开发验证、产品选型和能力提升都至关重要。但是,已有大模型基准测试以评估模型通用能力为主,存在评测方法不统一、评测方式单一、距离实际应用较远等问题。因此,亟需建立一套面向产业应用的大模型基准测试体系,搭建全量测试题库、自动测试平台和高效测试方法,满足大模型能力持续监测和能力迭代的要求。



测试指标方面,“方升”测试体系主要针对行业、应用、通用和安全四个维度对大模型进行全面、客观、统一的评估,为了加速大模型应用落地,重点强化了行业和应用导向能力的考查。


测试方法方面,“方升”测试体系创新性提出自适应动态测试方法,从测试数据标签化、测试题库实时化、测试方案定制化、测试流程自动化四个方面全面提升大模型基准测试质量,重点解决大模型“刷榜”问题。


测试数据方面,“方升”测试体系搭建动态测试数据库,涵盖测试数据集107个,测试数据条数达到123万,联合产业界多家机构首次推出面向行业、通用、应用、安全领域的评测数据集6个。


测试框架与工具方面,中国信通院在构建超自动化测试平台和智能化结果评估系统方面持续发力,探索解决国内外人工智能自动化测试流程中存在的“阻塞点”,全面提高测试效率。


海天瑞声作为“方升”大模型基准测试体系的合作伙伴,将积极参与到评测体系的构建和实施中,通过提供数据技术支持和服务,共同探索人工智能评测创新发展之路,为推动中国人工智能评测水平的提升和行业的发展贡献力量。


相关内容

热门资讯

PHP新手之PHP入门 PHP是一种易于学习和使用的服务器端脚本语言。只需要很少的编程知识你就能使用PHP建立一个真正交互的...
网络中立的未来 网络中立性是什... 《牛津词典》中对“网络中立”的解释是“电信运营商应秉持的一种原则,即不考虑来源地提供所有内容和应用的...
各种千兆交换机的数据接口类型详... 千兆交换机有很多值得学习的地方,这里我们主要介绍各种千兆交换机的数据接口类型,作为局域网的主要连接设...
什么是大数据安全 什么是大数据... 在《为什么需要大数据安全分析》一文中,我们已经阐述了一个重要观点,即:安全要素信息呈现出大数据的特征...
如何允许远程连接到MySQL数... [[277004]]【51CTO.com快译】默认情况下,MySQL服务器仅侦听来自localhos...
如何利用交换机和端口设置来管理... 在网络管理中,总是有些人让管理员头疼。下面我们就将介绍一下一个网管员利用交换机以及端口设置等来进行D...
P2P的自白|我不生产内容,我... 现在一提起P2P,人们就会联想到正在被有关部门“围剿”的互联网理财服务。×租宝事件使得劳...
Intel将Moblin社区控... 本周二,非营利机构Linux基金会宣布,他们将担负起Moblin社区的管理工作,而这之前,Mobli...
施耐德电气数据中心整体解决方案... 近日,全球能效管理专家施耐德电气正式启动大型体验活动“能效中国行——2012卡车巡展”,作为该活动的...
Windows恶意软件20年“... 在Windows的早期年代,病毒游走于系统之间,偶尔删除文件(但被删除的文件几乎都是可恢复的),并弹...