中国工业互联网研究院2024人工智能大模型工业应用准确性测评报告-v3.521页

3.0 2025-05-14 82 0 4279 KB 21 页 VIP免费 PDF

侵权投诉

中国工业互联网研究院2024人工智能大模型工业应用准确性测评报告-v3.521页

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

0 人已下载

立即下载

摘要：

人工智能大模型工业应用准确性测评 2024年3月版1一、前言2 为贯彻落实党中央国务院关于促进人工智能发展的决策部署，中国工业互联网研究院依托通用人工智能与工业融合创新中心（简称“中心”），联合香港科技大学、中国经济信息社，深入研究人工智能大模型在工业领域的应用性能、技术架构、标准体系，并在此基础上，形成本报告。结合工业企业大模型应用情况调研，本报告在原有工业知识问答准确性测评的基础上，新增数据分析、工程建模、文档生成、代码理解等四大场景，构建测试数据集，对国内外具有代表性的大模型进行测试，发布新一轮的准确性测评报告，供业界进行参考。本报告测评结果虽经中心专家委论证，但因大模型迭代速度快，技术复杂，囿于工作团队专业知识和能力，报告难免存在分析结论不足等问题，且测评结果仅适用于测试期间，欢迎大家批评指正。 2023年初至今，大模型技术发展突飞猛进，已逐步渗透至工业领域诸多环节，涵盖了知识问答、工程建模、数据分析、文档生成、代码理解等场景，正快速成长为工业转型升级和创新发展的重要动力。二、测评内容3•依托国家工业互联网大数据中心，聚焦重点工业行业，汇集高质量语料，形成工业语料库，支撑大模型在工业领域应用测评；•结合工业企业调研，在原有知识问答基础上，新增四类工业应用测评场景，开展大模型在各应用场景的准确性测评。工业应用准确性测评解答计算机编程问题，分析工业设计、控制代码安全性、计算复杂性。代码理解面向工业应用，有逻辑、有条理地生成总结性、分析性的文本。文档生成面向工业场景基础结构化数据，分析现象，描述趋势，得出结论。数据分析面向工业问题，选取基础数学知识，建立数学模型进行求解。工程建模结合工业知识，有理有据解答各领域专业性问题。知识问答石化化工行业三、测评方法4Ø测评流程Ø评分标准•为更贴合应用场景实际，进一步评价模型的多维能力，本期测评题型以问答题为主；•为保障判分的一致性与准确度，问答题的评分方式由人工判分改为大模型判分，并按步骤赋分。根据场景、难度、行业，选取有标准答案的题目，经人工校验后形成测试题。利用GPT4将原有标准答案整理为评分标准，并通过人工校验提升判分标准科学性。调用待测试大模型API，收集大模型答案。生成判分标准[1]进行判分[2]进行问答利用GPT4，根据评分标准，按步骤赋分。筛选题目1.题目类型

展开>> 收起<<

中国工业互联网研究院2024人工智能大模型工业应用准确性测评报告-v3.521页

共 21 页,预览3页

还剩18页未读，继续阅读