贺品嘉-LLM内容安全性的挑战与优化从数据到算法






LLM内容安全性的挑战与优化:从数据到算法贺品嘉 | 香港中文大学(深圳)演讲嘉宾贺品嘉国家级青年人才香港中文大学(深圳)助理教授,期刊TOSEM副编辑,开源项目在GitHub上共收获6000+ stars,并被450+学界与业界组织下载6万余次,研究方向为AI for SE、SE for AI、智能运维、大模型安全目 录CONTENTS1.大模型的内容安全2.数据视角下的安全问题3.[OOD] CipherChat4.[BIAS] DeRTa5.总结与展望大模型的内容安全PART 01大模型的内容安全(Zhao et al. 2023) A Survey of Large Language Models. Preprint.•大模型将AI的智能水平推向了一个新的高度大模型的内容安全(Ouyang et al. 2022) Training language models to follow instructions with human feedback. NeurIPS.•预训练:大模型首先在海量数据上学习 Next-Token-Prediction•后训练:监督微调(SFT),然后 偏好对齐 (e.g. RLHF,DPO)SFTRLHF大模型的内容安全•In-Context-Learning (ICL):结合 ICL,经过训练的模型可以按照要求完成各种任务大模型的内容安全(Xie et al. 2023) Sorry-Bench: Systematically Evaluating Large Language Model Safety Refusal Behaviors. Preprint.•对于危险问题:指令遵循 VS 安全拒绝•这两个训练目标之间的竞争,可能导致诸多安全风险当被要求遵循危险指令(e.g. 如何制作炸弹),模型的回复中是否包含能有效指导完成该指令的内容。本次报告中的安全性定义数据视角下的安全问题PART 02数据视角下的安全问题模型,在训练数据上,以训练目标为指导,更新参数•模型架构:Transformer Decoder-only•训练目标:指令遵循 VS 安全拒绝•训练数据:?•当前的训练数据,可能存在什么样的问题?•什么样的训练数据,可以训练出更安全的模型?训练数据数据视角下的安全问题我们尝试从两个经典的概念,OOD和Bias,出发,
相关推荐
相关内容
-
腾讯云中国信通院中国通信标准化协会2024年AI大模型应用发展研究报告58页
分类:
时间:2025-05-09
标签:
格式:PDF
-
利用智能视觉组件简化嵌入式视觉开发
分类:
时间:2025-05-09
标签:
格式:PDF
-
俄勒冈州交通规划在快速变化和不确定的时代利用情景规划的案例研究
分类:
时间:2025-05-09
标签:
格式:PDF
-
SiCMOSFET技术进展与发展方向
分类:
时间:2025-05-09
标签:
格式:PDF
-
康嘉种业-每一头猪都代表着康嘉人的尊严
分类:
时间:2025-05-09
标签:
格式:PDF
-
汽车行业周报小米SU7Ultra正式发布Helix带动Figure效率跃升-25030118页
分类:
时间:2025-05-09
标签:
格式:PDF
-
杨昕-AI驱动抖音用户体验中台探索与实践
分类:
时间:2025-05-10
标签:
格式:PDF
-
跨国的AI采用者的肖像公司特征资产的互补性和生产力
分类:
时间:2025-05-10
标签:
格式:PDF
-
OrChechikandDanielFrank-从侦察到毁灭揭露伊朗AgriusAPT最新TTPs
分类:
时间:2025-05-10
标签:
格式:PDF
-
爱立信混合工作模式调查结果
分类:
时间:2025-05-10
标签:
格式:PDF