职责
开发解决大规模系统可靠性问题的解决方案,包括软件和基础设施;增强可观察性工具;自动化系统可靠性工具;扩展产品和工具解决方案
资格
深入了解可观察性工程原理和工具;精通OpenTelemetry;精通大型分布式系统的扩展和容错实践;精通网络技术;精通AWS服务(Cloudfront、RDS、Dynamo、ECS、EKS、Lambda、FIS、Kinesis等);具有现代DevOps工具的实际经验(Cloudformation、Github actions、terraform等);精通多种编程语言 - Node.js、Typescript、Angular、Java、Python、Shell;精通可靠性工程实践 - 松耦合、容错实践、性能和混沌工程实践、分析等