中国工业互联网研究院2024人工智能大模型工业应用准确性测评报告-v3.521页






人工智能大模型工业应用准确性测评 2024年3月版1一、前言2 为贯彻落实党中央国务院关于促进人工智能发展的决策部署,中国工业互联网研究院依托通用人工智能与工业融合创新中心(简称“中心”),联合香港科技大学、中国经济信息社,深入研究人工智能大模型在工业领域的应用性能、技术架构、标准体系,并在此基础上,形成本报告。 结合工业企业大模型应用情况调研,本报告在原有工业知识问答准确性测评的基础上,新增数据分析、工程建模、文档生成、代码理解等四大场景,构建测试数据集,对国内外具有代表性的大模型进行测试,发布新一轮的准确性测评报告,供业界进行参考。 本报告测评结果虽经中心专家委论证,但因大模型迭代速度快,技术复杂,囿于工作团队专业知识和能力,报告难免存在分析结论不足等问题,且测评结果仅适用于测试期间,欢迎大家批评指正。 2023年初至今,大模型技术发展突飞猛进,已逐步渗透至工业领域诸多环节,涵盖了知识问答、工程建模、数据分析、文档生成、代码理解等场景,正快速成长为工业转型升级和创新发展的重要动力。二、测评内容3•依托国家工业互联网大数据中心,聚焦重点工业行业,汇集高质量语料,形成工业语料库,支撑大模型在工业领域应用测评;•结合工业企业调研,在原有知识问答基础上,新增四类工业应用测评场景,开展大模型在各应用场景的准确性测评。工业应用准确性测评解答计算机编程问题,分析工业设计、控制代码安全性、计算复杂性。代码理解面向工业应用,有逻辑、有条理地生成总结性、分析性的文本。文档生成面向工业场景基础结构化数据,分析现象,描述趋势,得出结论。数据分析面向工业问题,选取基础数学知识,建立数学模型进行求解。工程建模结合工业知识,有理有据解答各领域专业性问题。知识问答石化化工行业三、测评方法4Ø测评流程Ø评分标准•为更贴合应用场景实际,进一步评价模型的多维能力,本期测评题型以问答题为主;•为保障判分的一致性与准确度,问答题的评分方式由人工判分改为大模型判分,并按步骤赋分。根据场景、难度、行业,选取有标准答案的题目,经人工校验后形成测试题。利用GPT4将原有标准答案整理为评分标准,并通过人工校验提升判分标准科学性。调用待测试大模型API,收集大模型答案。生成判分标准[1]进行判分[2]进行问答利用GPT4,根据评分标准,按步骤赋分。筛选题目1.题目类型
相关推荐
-
2025-05-13 19930
-
2025-05-15 19937
-
2025-05-13 19935
-
2025-05-15 17935
-
2025-05-13 19830
-
2025-05-14 19531
-
2025-05-14 18530
-
2025-05-15 18930
-
2025-05-09 81
-
2025-05-09 76
相关内容
-
新战略咨询2024移动机器人AGV_AMR专用激光雷达产品发展蓝皮书31页
分类:
时间:2025-05-15
标签:
格式:PDF
-
甲子光年2025年DeepSeeK开启AI算法变革元年报告16页
分类:
时间:2025-05-13
标签:
格式:PDF
-
鼎帷咨询2025年DeepSeek战略创新分析报告-围绕DeepSeek尖刀点加速打造AI产业刀锋链39页
分类:
时间:2025-05-13
标签:
格式:PDF
-
少年商学院2025年DeepSeek中小学生使用手册81页
分类:
时间:2025-05-13
标签:
格式:PDF
-
英普利集团2025企业出海白皮书中东篇精编版39页
分类:
时间:2025-05-14
标签:
格式:PDF
-
火山引擎2024火山引擎视频云实践精选集224页
分类:
时间:2025-05-15
标签:
格式:PDF
-
曼昆律所2024年Web3.0区块链项目出海法律白皮书71页
分类:
时间:2025-05-14
标签:
格式:PDF
-
CyberRobo2024全球人形机器人产品数据库报告-人形机器人洞察研究BTIResearch99页
分类:
时间:2025-05-15
标签:
格式:PDF
-
腾讯云中国信通院中国通信标准化协会2024年AI大模型应用发展研究报告58页
分类:
时间:2025-05-09
标签:
格式:PDF
-
利用智能视觉组件简化嵌入式视觉开发
分类:
时间:2025-05-09
标签:
格式:PDF