文皓-教育大模型评测体系构建与场景化测试实践

3.0 2025-08-16 595 17 9121 KB 58 页 VIP免费 PDF
侵权投诉
文皓-教育大模型评测体系构建与场景化测试实践
文皓-教育大模型评测体系构建与场景化测试实践
文皓-教育大模型评测体系构建与场景化测试实践
文皓-教育大模型评测体系构建与场景化测试实践
文皓-教育大模型评测体系构建与场景化测试实践
摘要:

教育大模型评测体系构建与场景化测试实践文皓 | 科大讯飞文皓科大讯飞AI研究院教育质量部总监有10多年软件开发及测试经验,2017年加入讯飞研究院质量团队,负责AI算法测试,对于认知类技术产品的落地有较多经验; 在讯飞星火大模型的攻关项目中,参与了星火大模型在教育、汽车、司法等多个业务场景的落地工作。目 录CONTENTSI.背景与挑战II.教育大模型评测体系构建III.作文批改场景端到端测试实践IV.总结与展望背景与挑战PART 01人工智能四次浪潮1956年美国达特茅斯会议“人工智能” 概念诞生2006第三次浪潮AI for Science形成热潮2000第二次AI冬天1990第二次黄金期Hopfield网络&BP算法第五代计算机兴起1970第一次黄金期Logic Theorist第一款人工智能软件Perceptron 第一款神经网络软件1980第一次AI冬天DNN在语音识别上的成功CNN在图像识别上的成功深度学习(Hinton 2006)第五代计算机失败,DARPA削减投入Transformer在自然语言处理获得成功Attention在机器翻译上获得成功GPT、Bert开启NLP的预训练新范式2022 ChatGPT智慧涌现2022第四次浪潮2016 AlphaGo下围棋胜过人类2019 SQuAD2.0阅读理解超过人类…人工智能(Artificial Intelligence) :能够和人一样进行感知、认知、决策、执行的人工程序或系统通用人工智能的“曙光”语言理解、知识问答、逻辑推理、代码解释等48项任务海量多源多模态数据统一的深度神经网络大模型视频模态语音模态图像模态文本模态认知大模型成为通用人工智能的“曙光”GPT(Generative Pre-Trained Transformer)持续推动认知大模型的研发数据来源:https://platform.openai.com/examples讯飞星火发布里程碑8月15日突破代码能力多模态交互再升级V2.010月24日通用模型对标 GPT-3.5(中文超越,英文相当)V3.02024年6月27日底座能力全面对标GPT-4 Turbo(2024年4月版本)V4.02023年5月6日七大核心能力发布大模型评测体系发布V1.06月9日突破开放式问答多轮对话能力再升级数学能力再升级V1.510月24日七大能力全面超过

展开>> 收起<<
文皓-教育大模型评测体系构建与场景化测试实践

共 58 页,预览5页

还剩53页未读, 继续阅读

文皓-教育大模型评测体系构建与场景化测试实践
文皓-教育大模型评测体系构建与场景化测试实践
文皓-教育大模型评测体系构建与场景化测试实践
文皓-教育大模型评测体系构建与场景化测试实践
文皓-教育大模型评测体系构建与场景化测试实践
声明:企商查报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
属性:58 页 大小:9121 KB 格式:PDF 时间:2025-08-16

开通VIP享超值会员特权

  • 多端同步记录
  • 高速下载文档
  • 免费文档工具
  • 分享文档赚钱
  • 每日登录抽奖
  • 优质衍生服务
/ 3
客服
关注