188体育app官网_188体育投注

返回首页

SRE自动化工程实践和稳定性运营 | 8月3日TF115 报名

阅读量:0 2023-07-27 收藏本文

本期会议邀请到来自哔哩哔哩、美图公司、享道出行等在稳定性工程领域有着良好实践的技术专家,一起深入探讨在云原生、智能时代面对复杂应用系统,如何借助稳定性工程来提升系统服务的稳定性等,讨论运维标准化工程和稳定性运营实践、SRE转型实践与可靠性工程实践。以标准化工程实践预防问题,防患未然、化解隐患,更好地提前发现潜在风险,尽量减少故障的发生,降低业务风险。8月3日,欢迎报名!



TF115 SRE自动化工程实践和稳定性运营


图片



为工程师提供顶级交流平台

CCF TF第115期

时间:2023年8月3日 19:00-21:00

(线上会议)

主题:SRE自动化工程实践和稳定性运营



图片

欢迎扫码了解详情报名参会

报名链接:https://conf.ccf.org.cn/TF115

 

在数字化时代,数字化业务迅速发展,随之软件的规模扩展很快,软件系统的复杂性快速增长,即使采用微服务架构、云原生平台,复杂性问题没有得到显著改善,生产环境的稳定性面临着巨大的挑战,从而产生了软件工程的一个新分支:稳定性工程。


系统稳定性工程(Site Reliability Engineering,SRE)是一种致力于确保系统稳定性和可靠性的跨职能工程实践。它结合了软件工程和运维运营的最佳实践,旨在提供高效的运维支持,确保系统在面对高负载、故障和变更时仍能保持稳定运行。


SRE的作用是通过自动化运维流程、监控系统、故障预测和快速响应来降低系统故障率,并通过持续改进来提高系统的可靠性。SRE团队与开发团队紧密合作,共同负责系统的设计、部署、运维和监控,以确保系统能够满足业务需求并提供优质的用户体验。


运维在系统稳定性工程中发挥着重要作用。运维团队负责监控系统的运行状况、处理故障和变更管理。他们通过实时监控和日志分析来发现潜在问题,并采取相应措施来防止故障的发生。运维团队还负责制定和执行灾难恢复计划,以确保系统在面临灾难性故障时能够快速恢复。


稳定性运营是系统稳定性工程的核心概念之一。它强调通过系统化的方法来管理和改善系统的稳定性。稳定性运营包括建立监控系统、设置警报、制定故障恢复策略以及进行容量规划等活动。通过稳定性运营,可以提前预测和防止潜在的故障,并及时采取措施来保障系统的稳定性。


在系统稳定性工程中,有一些优秀实践可以帮助团队提高系统的稳定性。本期会议邀请到来自哔哩哔哩、美图公司、享道出行等在稳定性工程领域有着良好实践的技术专家,一起深入探讨在云原生、智能时代面对复杂应用系统,如何借助稳定性工程来提升系统服务的稳定性等,讨论运维标准化工程和稳定性运营实践、SRE转型实践与可靠性工程实践。


在这次会议中,您会有不少收获:

  • 如何建立良好的流程来减少人为错误和提高效率?

  • 开发怎样的运维自动化工具或平台来保证系统的可靠性?

  • 需要哪些团队提供怎样的支持?

  • 如何从被动方式转化为主动方式?

  • 如何进行稳定性运营?

 ……


图片


总之,系统稳定性工程是确保系统稳定运行的关键实践。通过SRE团队的努力,结合运维的作用、稳定性运营和优秀实践,可以提高系统的可靠性和用户满意度。在不断变化的技术环境中,系统稳定性工程是保障业务连续性和用户体验的重要保证。


欢迎报名,并参与我们的互动。


二、会议安排


TF115SRE自动化工程实践和稳定性运营

主持人:朱少民 CCF TF软件质量工程SIG主席,同济大学特聘教授

时间

主题

讲者

19:00-19:10

活动介绍及致辞

朱少民

CCF TF软件质量工程SIG主席,同济大学特聘教授

19:10-19:40

《运维标准化工程实践》

谢庆芳

享道出行运维自动化负责人

19:40-20:10

BSRE转型实践与可靠性工程实践》

武安闯

哔哩哔哩 SRE负责人

20:10-20:40

《美图SRE团队的「稳定性运营」实践》

石鹏

美图公司高级运维经理

20:40-20:55

参会者提问互动

朱少民、谢庆芳、武安闯、石鹏

20:55-21:00

活动总结

朱少民

CCF TF软件质量工程SIG主席,同济大学特聘教授


三、所属SIG


CCF TF 软件质量工程SIG


四、特邀讲者




图片

谢庆芳

享道出行运维自动化负责人


主题:《运维标准化工程实践》


主题简介:随着公司规模不断壮大,业务量也飞速增长,生产环境稳定性面临更大的挑战,其中运维稳定性是基础也是保障。每一次运维变更都会加大故障率,最终影响用户满意度。运维变更治理不光要追求稳,还要追求快。对于稳,需要流程化;对于快,需要自动化。变更流程单靠口头表述、文档制定或单纯的记忆,称不上流程化。脚本只是本地维护,人工调用,称不上自动化。一旦有变更,很难同步对齐,就需要工具来承载,实现真正意义上的标准化。工具平台的建设+脚本的统一维护是解决变更混乱的有效方法,不仅能避免出错,还可以高效处理。表面看有益运维,实质是业务价值最大化回馈用户。


个人简介:负责享道出行一体化平台建设,偏SRE方向;曾有基础架构中间件、性能、自动化等经验;QECon 技术讲师;GOPS线下沙龙讲师;享道出行线上品牌主播。





图片

武安闯

哔哩哔哩SRE负责人


主题:《B站SRE转型实践与可靠性工程实践》


主题简介:传统运维已无法满足现阶段互联网分布式架构下的可靠性保障,SRE就是终极破局之法吗?SRE该如何转型,转型中需要哪些支持,转型后的可靠性工程如何实践?本次分享就这些问题给大家带来B站SRE的思考、探索与实践,深度介绍我们的可靠性工程框架。

本次演讲提纲如下:

1、传统运维与Google SRE的演进与区别;

2、人、组织、制度为SRE转型保驾护航;

3、SRE转型后如何开展可靠性工程;

4、可靠性工程框架与实战。

听众可从本次分享中收获到:

1、了解运维转型SRE中遇到的困难和如何破局;

2、SRE可靠性工程在互联网公司的实际框架;

3、了解SRE如何解构与落地可靠性工程。


个人简介:对SRE高可用架构、技术风险体系建设、质量运营和组织转型有深刻的建设实践和思考;主导B站SRE转型、高可用架构、故障快恢、SLO工程、容量管理体系、多活容灾等专项;从0到1带领B站运维向SRE转型,建设B站可靠性体系;当前专注SRE可靠性体系规划建设和落地实践。





图片

石鹏(东方德胜)

美图公司高级运维经理


主题:《美图SRE团队的「稳定性运营」实践》


主题简介:随着外部环境、行业变革、云原生等技术的不断深化,传统的“被动响应式”的运维方法面临诸多挑战,在很多场景下已经无法满足企业需求。我们迫切地需要转变思路,从“被动响应”转为“主动出击”,将更多的工作内容前置、左移,防患于未然、化风险于无形。同时还需要用更科学的宏观框架来系统地梳理和规划运维工作,并做好各职责目标之间的动态平衡,以此更好地掌控“SRE基本盘”。在此背景之下,美图SRE团队探索了一条攻守兼备的「稳定性运营」之路,做了一些方法的归纳和总结,希望给大家带来一些启发。

拟定大纲:

01 SRE的目标&挑战;

02指导破局的理论框架;

03「守」稳住基本盘;

04「攻」规划&运营。


个人简介:石鹏(东方德胜),2016年加入美图,运维技术专家,美图产品SRE负责人。目前在美图负责社区、商业化、创新、实验室等全线产品的运维保障工作,同时参与公司部分工具平台和基础设施的建设。多次参与或主导过公司基础设施的调整、迁移或改造,在监控、灾备、故障管理、稳定性运营等方面有一定的经验和积累。业界多个技术大会的分享嘉宾、金牌讲师或出品人。




五、SIG主席&会议主席