商恒超-盘古多语言大模型业务落地探索

3.0 2025-05-09 35 0 4816 KB 47 页 PDF
侵权投诉
商恒超-盘古多语言大模型业务落地探索
商恒超-盘古多语言大模型业务落地探索
商恒超-盘古多语言大模型业务落地探索
商恒超-盘古多语言大模型业务落地探索
商恒超-盘古多语言大模型业务落地探索
摘要:

盘古多语言大模型业务落地探索 华为2012文本机器翻译实验室 / 商恒超提纲•机器翻译Lab-业务动机•泰语&阿语大模型现状•盘古大模型支持多语言(TH/AR)的实现•基于RAG的呼叫中心提效•基于Agent的个性化营销活动机器翻译Lab-业务动机机器翻译Lab业务与动机传统模型时代:•支撑内部(华为云、终端、资料)翻译诉求•同声传译大模型时代:•大模型机器翻译:使用LLM提升翻译能力•翻译辅助LLM:大模型翻译相关任务增强、多语言大模型(数据、策略)承接翻译根技术泰语&阿语大模型现状泰语&阿语大模型现状•2022年OpenAI ChatGPT的出现,率先展现出大模型的无限潜力,掀起了Decode-Only架构大模型的研究浪潮泰语&阿语大模型现状•目前的大模型主要以英文、中文为主,对中低资源语种的支持较少•目前支持泰语的大模型•ChatGPT/GPT-4、LLama3.1•PolyLM•WangChanGLM•Typhoon支持阿语的大模型:•ChatGPT/GPT-4•Jais•AceGPT泰语&阿语大模型现状•泰语、阿语(低资源语种)大模型需求与发展的矛盾•语言使用人口数量高 vs.语言数据占比低Llama 2:2万亿token语言分布语言人口数据泰语&阿语大模型现状•泰语、阿语(低资源语种)大模型需求与发展的矛盾•单语数据稀缺,训练资源昂贵•对话数据稀缺,尤其是多轮对话•人类偏好数据稀缺,RLHF训练繁琐•如何直接将高资源语言知识迁移至低资源语言?盘古大模型支持多语言的实现(泰语为例)盘古大模型支持多语言的实现•机器翻译桥接--最朴素 (No Training)•机器翻译 + 高资源语种大模型•Work Well•问题:错误传递、文化风格、知识缺失等泰语Question泰英翻译英语大模型英泰翻译泰语Answer盘古大模型支持多语言的实现•开源常规适配训练范式:以Typhoon为例 (Training)•Base LLM:Mistral-7B•扩词表:增加5K泰语token•CPT(Continue PreTraining):50/50比率的泰英数据•SFT( Supervised Fine-Tuning )盘古大模型支持多语言的实现•Training范式的分析:•只用泰语数据?•英文+泰语的混合•基于Base模型做适配? •基于Instruct模型?❌ 英文知

展开>> 收起<<
商恒超-盘古多语言大模型业务落地探索

共 47 页,预览3页

还剩44页未读, 继续阅读

声明:企商查报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
作者: 分类: 属性:47 页 大小:4816 KB 格式:PDF 时间:2025-05-09

开通VIP享超值会员特权

  • 多端同步记录
  • 高速下载文档
  • 免费文档工具
  • 分享文档赚钱
  • 每日登录抽奖
  • 优质衍生服务
/ 3
客服
关注