文皓-教育大模型评测体系构建与场景化测试实践

3.0 2025-08-16 595 17 9121 KB 58 页 VIP免费 PDF

侵权投诉

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

17 人已下载

立即下载

摘要：

教育大模型评测体系构建与场景化测试实践文皓 | 科大讯飞文皓科大讯飞AI研究院教育质量部总监有10多年软件开发及测试经验，2017年加入讯飞研究院质量团队，负责AI算法测试，对于认知类技术产品的落地有较多经验; 在讯飞星火大模型的攻关项目中，参与了星火大模型在教育、汽车、司法等多个业务场景的落地工作。目录CONTENTSI.背景与挑战II.教育大模型评测体系构建III.作文批改场景端到端测试实践IV.总结与展望背景与挑战PART 01人工智能四次浪潮1956年美国达特茅斯会议“人工智能” 概念诞生2006第三次浪潮AI for Science形成热潮2000第二次AI冬天1990第二次黄金期Hopfield网络&BP算法第五代计算机兴起1970第一次黄金期Logic Theorist第一款人工智能软件Perceptron 第一款神经网络软件1980第一次AI冬天DNN在语音识别上的成功CNN在图像识别上的成功深度学习（Hinton 2006）第五代计算机失败，DARPA削减投入Transformer在自然语言处理获得成功Attention在机器翻译上获得成功GPT、Bert开启NLP的预训练新范式2022 ChatGPT智慧涌现2022第四次浪潮2016 AlphaGo下围棋胜过人类2019 SQuAD2.0阅读理解超过人类…人工智能(Artificial Intelligence) ：能够和人一样进行感知、认知、决策、执行的人工程序或系统通用人工智能的“曙光”语言理解、知识问答、逻辑推理、代码解释等48项任务海量多源多模态数据统一的深度神经网络大模型视频模态语音模态图像模态文本模态认知大模型成为通用人工智能的“曙光”GPT（Generative Pre-Trained Transformer）持续推动认知大模型的研发数据来源：https://platform.openai.com/examples讯飞星火发布里程碑8月15日突破代码能力多模态交互再升级V2.010月24日通用模型对标 GPT-3.5（中文超越，英文相当）V3.02024年6月27日底座能力全面对标GPT-4 Turbo（2024年4月版本）V4.02023年5月6日七大核心能力发布大模型评测体系发布V1.06月9日突破开放式问答多轮对话能力再升级数学能力再升级V1.510月24日七大能力全面超过

展开>> 收起<<

文皓-教育大模型评测体系构建与场景化测试实践

共 58 页,预览5页

还剩53页未读，继续阅读