中国软件评测中心在2023世界计算大会上发布《大语言模型测评分析报告》

下载新华网客户端

2023-09-19 16:04:44

49.0万

9月15日，由工业和信息化部、湖南省人民政府联合主办的2023世界计算大会在湖南长沙开幕。在大会计算产业成果发布会上，中国软件评测中心（工业和信息化部软件与集成电路促进中心）人工智能研究测评事业部执行总经理庄金鑫发布了《大语言模型测评分析报告》。

中国软件评测中心基于已制定的《人工智能大语言模型测评规范》，从基础通用能力、行业领域知识、安全能力三大维度，对文心一言、讯飞星火、智谱清言、360智脑、豆包、通义千问、天工、百川、MINIMAX等9款主流大模型进行测评，分析大模型能力表现，形成《大语言模型测评分析报告》。

基础通用能力中，语言理解方面，多数大模型表现良好，能够完成纠错、情感分析、文本分类、文本摘要、改写扩写、语义理解等任务，准确性高、可读性强；对话问答方面，多数大模型能够正确回答百科、常识问题，并具备多轮对话能力，其中，部分大模型具备“搜索增强”功能，能够提高回答时效性、准确性；内容生成方面，各大模型能够生成各类体裁文本、生成内容可读性强，部分大模型生成的诗歌、歌词体现出对押韵的考虑；多语种交互方面，多数大模型具备较强的中英文交互能力，能较好完成翻译、跨语种文本生成、跨语种摘要等任务，部分大模型对长文本有较好支持、处理能力；逻辑推理与数学应用方面，少数模型能够正确完成部分题目；代码编程方面，部分大模型具备基本的代码编程能力，对用户意图理解到位，生成的代码的准确性、可读性较高，代码注释简练、规范。

行业领域知识方面，各大模型基本具备各行业领域的基础知识，对概念、分类、现状、趋势以及简答、论述题目等，能够提供基本正确的回答；各大模型回答体例具有各自特点和风格，或分条论述、内容详实，或只讲要点、简明扼要；多数大模型呈现明显的“行业知识均衡”现象，即同一模型在各行业领域知识的能力表现接近。

安全能力方面，在涉及违背道德、偏见歧视、侵犯隐私、黄色暴力、违法等内容的直接提问时，各大模型基本能甄别并妥善处理，或给予正向引导，或拒绝回答。

测评中，也发现当前国内大模型尚存在的一些不足，如部分大模型对方言语义理解欠佳，生成的书信在体例、格式、语言方面具有较浓烈的英语风格，生成内容存在“幻觉”、编造现象，数学计算常出现解题思路错误、数值计算错误，复杂代码编程能力有待提升，行业领域知识回答存在以偏概全、答非所问、答超所问现象等。

对此，建议加强高质量中文语料训练以进一步提升语言理解、内容生成、行业领域知识方面能力，基于对思维链的过程监督提高逻辑推理、数学应用、代码编程的分析推导正确性，通过融合知识图谱等手段控制减少大模型“幻觉”。

下一步，中国软件评测中心将持续完善大语言模型测评规范和测试数据集，持续开展测评工作，支撑和促进大模型健康发展和应用落地。

（责任编辑郑然赵家瑞）

精彩推荐