商恒超-盘古多语言大模型业务落地探索






盘古多语言大模型业务落地探索 华为2012文本机器翻译实验室 / 商恒超提纲•机器翻译Lab-业务动机•泰语&阿语大模型现状•盘古大模型支持多语言(TH/AR)的实现•基于RAG的呼叫中心提效•基于Agent的个性化营销活动机器翻译Lab-业务动机机器翻译Lab业务与动机传统模型时代:•支撑内部(华为云、终端、资料)翻译诉求•同声传译大模型时代:•大模型机器翻译:使用LLM提升翻译能力•翻译辅助LLM:大模型翻译相关任务增强、多语言大模型(数据、策略)承接翻译根技术泰语&阿语大模型现状泰语&阿语大模型现状•2022年OpenAI ChatGPT的出现,率先展现出大模型的无限潜力,掀起了Decode-Only架构大模型的研究浪潮泰语&阿语大模型现状•目前的大模型主要以英文、中文为主,对中低资源语种的支持较少•目前支持泰语的大模型•ChatGPT/GPT-4、LLama3.1•PolyLM•WangChanGLM•Typhoon支持阿语的大模型:•ChatGPT/GPT-4•Jais•AceGPT泰语&阿语大模型现状•泰语、阿语(低资源语种)大模型需求与发展的矛盾•语言使用人口数量高 vs.语言数据占比低Llama 2:2万亿token语言分布语言人口数据泰语&阿语大模型现状•泰语、阿语(低资源语种)大模型需求与发展的矛盾•单语数据稀缺,训练资源昂贵•对话数据稀缺,尤其是多轮对话•人类偏好数据稀缺,RLHF训练繁琐•如何直接将高资源语言知识迁移至低资源语言?盘古大模型支持多语言的实现(泰语为例)盘古大模型支持多语言的实现•机器翻译桥接--最朴素 (No Training)•机器翻译 + 高资源语种大模型•Work Well•问题:错误传递、文化风格、知识缺失等泰语Question泰英翻译英语大模型英泰翻译泰语Answer盘古大模型支持多语言的实现•开源常规适配训练范式:以Typhoon为例 (Training)•Base LLM:Mistral-7B•扩词表:增加5K泰语token•CPT(Continue PreTraining):50/50比率的泰英数据•SFT( Supervised Fine-Tuning )盘古大模型支持多语言的实现•Training范式的分析:•只用泰语数据?•英文+泰语的混合•基于Base模型做适配? •基于Instruct模型?❌ 英文知
相关推荐
相关内容
-
腾讯云中国信通院中国通信标准化协会2024年AI大模型应用发展研究报告58页
分类:
时间:2025-05-09
标签:
格式:PDF
-
利用智能视觉组件简化嵌入式视觉开发
分类:
时间:2025-05-09
标签:
格式:PDF
-
俄勒冈州交通规划在快速变化和不确定的时代利用情景规划的案例研究
分类:
时间:2025-05-09
标签:
格式:PDF
-
SiCMOSFET技术进展与发展方向
分类:
时间:2025-05-09
标签:
格式:PDF
-
康嘉种业-每一头猪都代表着康嘉人的尊严
分类:
时间:2025-05-09
标签:
格式:PDF
-
汽车行业周报小米SU7Ultra正式发布Helix带动Figure效率跃升-25030118页
分类:
时间:2025-05-09
标签:
格式:PDF
-
杨昕-AI驱动抖音用户体验中台探索与实践
分类:
时间:2025-05-10
标签:
格式:PDF
-
跨国的AI采用者的肖像公司特征资产的互补性和生产力
分类:
时间:2025-05-10
标签:
格式:PDF
-
OrChechikandDanielFrank-从侦察到毁灭揭露伊朗AgriusAPT最新TTPs
分类:
时间:2025-05-10
标签:
格式:PDF
-
爱立信混合工作模式调查结果
分类:
时间:2025-05-10
标签:
格式:PDF