文皓-教育大模型评测体系构建与场景化测试实践






教育大模型评测体系构建与场景化测试实践文皓 | 科大讯飞文皓科大讯飞AI研究院教育质量部总监有10多年软件开发及测试经验,2017年加入讯飞研究院质量团队,负责AI算法测试,对于认知类技术产品的落地有较多经验; 在讯飞星火大模型的攻关项目中,参与了星火大模型在教育、汽车、司法等多个业务场景的落地工作。目 录CONTENTSI.背景与挑战II.教育大模型评测体系构建III.作文批改场景端到端测试实践IV.总结与展望背景与挑战PART 01人工智能四次浪潮1956年美国达特茅斯会议“人工智能” 概念诞生2006第三次浪潮AI for Science形成热潮2000第二次AI冬天1990第二次黄金期Hopfield网络&BP算法第五代计算机兴起1970第一次黄金期Logic Theorist第一款人工智能软件Perceptron 第一款神经网络软件1980第一次AI冬天DNN在语音识别上的成功CNN在图像识别上的成功深度学习(Hinton 2006)第五代计算机失败,DARPA削减投入Transformer在自然语言处理获得成功Attention在机器翻译上获得成功GPT、Bert开启NLP的预训练新范式2022 ChatGPT智慧涌现2022第四次浪潮2016 AlphaGo下围棋胜过人类2019 SQuAD2.0阅读理解超过人类…人工智能(Artificial Intelligence) :能够和人一样进行感知、认知、决策、执行的人工程序或系统通用人工智能的“曙光”语言理解、知识问答、逻辑推理、代码解释等48项任务海量多源多模态数据统一的深度神经网络大模型视频模态语音模态图像模态文本模态认知大模型成为通用人工智能的“曙光”GPT(Generative Pre-Trained Transformer)持续推动认知大模型的研发数据来源:https://platform.openai.com/examples讯飞星火发布里程碑8月15日突破代码能力多模态交互再升级V2.010月24日通用模型对标 GPT-3.5(中文超越,英文相当)V3.02024年6月27日底座能力全面对标GPT-4 Turbo(2024年4月版本)V4.02023年5月6日七大核心能力发布大模型评测体系发布V1.06月9日突破开放式问答多轮对话能力再升级数学能力再升级V1.510月24日七大能力全面超过
相关推荐
-
2025-05-13 19940
-
2025-05-15 19947
-
2025-05-13 19955
-
2025-05-15 17949
-
2025-05-13 19839
-
2025-05-14 19541
-
2025-05-14 18533
-
2025-05-15 18939
-
2025-06-05 472
-
2025-06-05 307
相关内容
-
甲子光年2025年DeepSeeK开启AI算法变革元年报告16页
分类:机构报告
时间:2025-05-13
标签:
格式:PDF
-
新战略咨询2024移动机器人AGV_AMR专用激光雷达产品发展蓝皮书31页
分类:机构报告
时间:2025-05-15
标签:
格式:PDF
-
鼎帷咨询2025年DeepSeek战略创新分析报告-围绕DeepSeek尖刀点加速打造AI产业刀锋链39页
分类:机构报告
时间:2025-05-13
标签:
格式:PDF
-
少年商学院2025年DeepSeek中小学生使用手册81页
分类:机构报告
时间:2025-05-13
标签:
格式:PDF
-
英普利集团2025企业出海白皮书中东篇精编版39页
分类:机构报告
时间:2025-05-14
标签:
格式:PDF
-
火山引擎2024火山引擎视频云实践精选集224页
分类:机构报告
时间:2025-05-15
标签:
格式:PDF
-
曼昆律所2024年Web3.0区块链项目出海法律白皮书71页
分类:机构报告
时间:2025-05-14
标签:
格式:PDF
-
CyberRobo2024全球人形机器人产品数据库报告-人形机器人洞察研究BTIResearch99页
分类:机构报告
时间:2025-05-15
标签:
格式:PDF
-
中国购车用户家庭存款洞察报告 (2025版)
分类:
时间:2025-07-11
标签:
格式:PDF
-
2025中国低空经济市场现状报告
分类:
时间:2025-07-11
标签:
格式:PDF