中文通用大模型综合性评测基准发布，各家产品表现如何？

来源：银柿财经时间：2023-05-10 14:39:19

(资料图片)

日前，中文通用大模型综合性评测基准SuperCLUE正式发布。据官网介绍，该基准测试主要关注在当前通用大模型大力发展的情况下，中文大模型的效果情况。

在测试过程中，SuperCLUE针对每一个题目构造了统一的prompt供模型和人类使用；系统使用模型进行预测，要求模型选取ABCD中的某一个选项；如果模型的回答不是标准的答案，而是一段文字，系统会采取特定的策略自动提取出模型的答案。

关于中文特性能力的问题

SuperCLUE将从基础能力、专业能力、中文特性能力三个维度来评价模型的能力。

其中基础能力包括了常见的有代表性的模型能力，如语义理解、对话、逻辑推理、角色扮演、代码、生成与创作等10项能力；专业能力包括了中学、大学与专业考试，涵盖了从数学、物理、地理到社会科学等50多项能力；中文特性能力包括了中文成语、诗歌、文学、字形等10项能力。

SuperCLUE的测试对象包括了GPT-4、GPT-3.5-turbo以及文心一言、星火认知大模型等国内外大模型。根据测试排名，科大讯飞开发的星火认知大模型以53.58的成绩位居第三、在国内的大模型中排名第一。

SuperCLUE的分析显示，当前模型在基础能力方面普遍表现不错，但中文特性能力、专业能力还比较差。说明当前国内大模型已经有不错的基础，但在专业领域、中文任务上表现一般，说明国内大模型在专业领域或中文任务上还需要继续努力，或者说进行针对性的训练。

测试结果

不过值得一提的是，包括京东的言犀产业大模型、阿里的通义千问、商汤的日日新均未参与测试。SuperCLUE也表示，此次测试样本仅9个模型，但还存在着更多的可用中文大模型，需要后续进一步添加并测试；有的模型由于没有广泛对外提供服务，没能获取到可用的测试版本，后续会进行更新。同时该测试在一些主观、开放性问题的模型能力的考察上可能存在不足。

标签：

上一篇：当前时讯：美债危机首轮会谈无任何进展拜登：三天后接着谈，违约绝不可能发生

下一篇：最后一页

为您推荐

全球要闻：兴安银铅冶炼公司信息宣传工作实现新突破

2023-05-10

九商云汇
秘鲁3月铜产量增长20%，因铜矿恢复生产

2023-05-10

九商云汇
上期所拟推出氧化铝期货对产业链有何影响？-信息

2023-05-10

九商云汇
二季度之后铝价料迎来一轮弱势行情-独家

2023-05-10

九商云汇
中国国际铝工业展7月重磅来袭，展会规模将创新高，邀您一起与海内外精英共探行业新趋势！-环球简讯

2023-05-10

九商云汇

为您推荐

资讯

财经

产经

金融