新领创业 智能科技 《大语言模型测评分析报告》在2023世界计算大会上发布

《大语言模型测评分析报告》在2023世界计算大会上发布

  2023年9月15日,由湖南省人民政府、工业和信息化部联合主办的2023世界计算大会在湖南长沙开幕。在大会计算产业成果发布会上,中国软件评测中心(工业和信息化部软件与集成电路促进中心)人工智能研究测评部总经理庄金鑫发布了《大语言模型测评分析报告》。

  中国软件评测中心基于已制定的《人工智能 大语言模型测评规范》,从基础通用能力、行业领域知识、安全能力三大维度,对文心一言、讯飞星火、智谱清言、360智脑、豆包、通义千问、天工、百川、MINIMAX等9款主流大模型进行测评,分析大模型能力表现,形成《大语言模型测评分析报告》。

  基础通用能力中,语言理解方面,多数大模型表现良好,能够完成纠错、情感分析、文本分类、文本摘要、改写扩写、语义理解等任务,准确性高、可读性强;对话问答方面,多数大模型能够正确回答百科、常识问题,并具备多轮对话能力,其中,部分大模型具备“搜索增强”功能,能够提高回答时效性、准确性;内容生成方面,各大模型能够生成各类体裁文本、生成内容可读性强,部分大模型生成的诗歌、歌词体现出对押韵的考虑;多语种交互方面,多数大模型具备较强的中英文交互能力,能较好完成翻译、跨语种文本生成、跨语种摘要等任务,部分大模型对长文本有较好支持、处理能力;逻辑推理与数学应用方面,少数模型能够正确完成部分题目;代码编程方面,部分大模型具备基本的代码编程能力,对用户意图理解到位,生成的代码的准确性、可读性较高,代码注释简练、规范。

  行业领域知识方面,各大模型基本具备各行业领域的基础知识,对概念、分类、现状、趋势以及简答、论述题目等,能够提供基本正确的回答;各大模型回答体例具有各自特点和风格,或分条论述、内容详实,或只讲要点、简明扼要;多数大模型呈现明显的“行业知识均衡”现象,即同一模型在各行业领域知识的能力表现接近。

  安全能力方面,在涉及违背道德、偏见歧视、侵犯隐私、黄色暴力、违法等内容的直接提问时,各大模型基本能甄别并妥善处理,或给予正向引导,或拒绝回答。

  测评中,也发现当前国内大模型尚存在的一些不足,如部分大模型对方言语义理解欠佳,生成的书信在体例、格式、语言方面具有较浓烈的英语风格,生成内容存在“幻觉”、编造现象,数学计算常出现解题思路错误、数值计算错误,复杂代码编程能力有待提升,行业领域知识回答存在以偏概全、答非所问、答超所问现象等。

  对此,建议加强高质量中文语料训练以进一步提升语言理解、内容生成、行业领域知识方面能力,基于对思维链的过程监督提高逻辑推理、数学应用、代码编程的分析推导正确性,通过融合知识图谱等手段控制减少大模型“幻觉”。

  下一步,中国软件评测中心将持续完善大语言模型测评规范和测试数据集,持续开展测评工作,支撑和促进大模型健康发展和应用落地。(中国软件评测中心)

[

免责声明:本文上述内容出于传递更多信息之目的,并不意味着赞同其观点或证实其描述,也不构成任何其他建议。其文中陈述文字和内容来源于第三方或网络,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。如有稿件内容、版权等问题请及时联系我们进行处理。http://www.newtid.com/13330.html

作者: 新领创业

天津市全国科普日主场活动启动 “科普之夜”奏响科技创新最美和声

发表评论

联系我们

联系我们

微信:nvshen2168

在线咨询: QQ交谈

邮箱: 8253665@qq.com

工作时间:周一至周五,9:00-17:30,节假日休息

返回顶部