文吉-基于大模型的根因分析实战






基于大模型的根因分析实战文吉 畅捷通信息技术股份有限公司演讲嘉宾文吉十年以上SRE实战经验,特别是对ToB场景有丰富实战经验用友集团P9高级专家多次对外分享,融合大模型能力升级智能运维荣获了信通院颁发的“稳定性优秀案例”目 录CONTENTS1.背景2.问题/痛点3.解决思路/整体方案4.具体实现/技术实践5.总结与展望背景PART 01畅捷通是做什么的?畅捷通信息技术股份有限公司是用友旗下成员企业,成立于2010年3月,于2014年在港交所上市,是中国领先的小微企业财税及业务云服务提供商。业务架构复杂C端用户量 + B端客户体量要保障每个用户的体验业务迭代速度快畅捷通运维转型之路——目标0-2-5-10业务从自建机房逐步转向全面采用公有云容器化架构,为业务发展提供了更强大的基础,但同时也带来了运维复杂性的指数级增长。自建机房云计算虚拟化容器化•手工操作•资源利用率低•部署和扩展速度慢•不易实现弹性伸缩•提高资源利用率•简化部署和管理•仍需手动配置和管理•迁移到公有云或私有云平台•实现弹性、灵活性和成本效益•可根据需求快速调整资源•实现更快速的部署•弹性伸缩和持续交付•提高开发和部署效率问题/痛点PART 02从一次飞机撞鸟说起2023年11月1日,旭日8409飞机起飞离地时,发动机遭遇鸟击。情况万分危急,关系到机上183人的生命安全。收集现象执行检查单做出正确决策总耗时7秒畅捷通运维面临什么样的压力?⻢上给我退货!发生故障时难以定位定位一个问题,需要:•打开3-5个看板•执行2-4次分析脚本90%的问题此时就能找到原因,耗时10分钟。但另10%的问题,才会产生大的故障,且往往难以定位原因无法快速判断爆炸半径•怎么判断报警严重性?•报警爆炸半径多大?•是否正在处理?谁在处理?•恢复了吗?畅捷通运维面临什么样的压力?客户不能等线上⽆法复现⽆迹可寻压⼒⼭⼤解决思路/整体方案PART 03关键要素:检查单1.吸收了所有故障排查经验2.紧急时刻不需要思考3.谁都可以执行,无门槛4.资料集中,查阅方便运维领域现状-传统AIOps的缺陷•运维团队积累的专家经验很难编码到算法模型中。通常,这些经验会被简化为阈值或复杂的规则,不仅难以维护,也难以传承。•接入和维护成本高,需要业务和算法团队深入理解业务逻辑和算法模型。•未遇到过的故障很难被解决,因为它们超出了模型的训练范围。•方
相关推荐
相关内容
-
腾讯云中国信通院中国通信标准化协会2024年AI大模型应用发展研究报告58页
分类:
时间:2025-05-09
标签:
格式:PDF
-
利用智能视觉组件简化嵌入式视觉开发
分类:
时间:2025-05-09
标签:
格式:PDF
-
俄勒冈州交通规划在快速变化和不确定的时代利用情景规划的案例研究
分类:
时间:2025-05-09
标签:
格式:PDF
-
SiCMOSFET技术进展与发展方向
分类:
时间:2025-05-09
标签:
格式:PDF
-
康嘉种业-每一头猪都代表着康嘉人的尊严
分类:
时间:2025-05-09
标签:
格式:PDF
-
汽车行业周报小米SU7Ultra正式发布Helix带动Figure效率跃升-25030118页
分类:
时间:2025-05-09
标签:
格式:PDF
-
杨昕-AI驱动抖音用户体验中台探索与实践
分类:
时间:2025-05-10
标签:
格式:PDF
-
跨国的AI采用者的肖像公司特征资产的互补性和生产力
分类:
时间:2025-05-10
标签:
格式:PDF
-
OrChechikandDanielFrank-从侦察到毁灭揭露伊朗AgriusAPT最新TTPs
分类:
时间:2025-05-10
标签:
格式:PDF
-
爱立信混合工作模式调查结果
分类:
时间:2025-05-10
标签:
格式:PDF