所需技能:
- 在大规模系统的SRE/基础设施/运维方面有生产经验
- 强大的编程/脚本技能(Python、Go、Java或同等语言)
- 深厚的容器化(Docker)、编排(Kubernetes等)经验
- 基础设施即代码(Terraform、Helm、CloudFormation、Ansible等)
- 熟悉GPU/AI计算集群、高性能数据存储和分布式架构
- 使用监控/可观测性/日志记录/警报工具(Prometheus、Grafana、ELK/EFK、Datadog等)的经验
- 在大规模系统的SRE/基础设施/运维方面有生产经验
- 强大的编程/脚本技能(Python、Go、Java或同等语言)
- 深厚的容器化(Docker)、编排(Kubernetes等)经验
- 基础设施即代码(Terraform、Helm、CloudFormation、Ansible等)
- 熟悉GPU/AI计算集群、高性能数据存储和分布式架构
- 使用监控/可观测性/日志记录/警报工具(Prometheus、Grafana、ELK/EFK、Datadog等)的经验
- 网络和系统工程知识(TCP/IP、DNS、路由、负载均衡、分布式存储)
- 在容量规划、性能调优、扩展和事件响应方面有扎实经验
- 展示了领导RCA、部署修复和推动可靠性改进的能力
- 在受监管环境(金融服务、合规、审计、安全)中的经验是一个很大的加分项
- 出色的沟通、文档编写和跨团队协作能力
- 通过自动化减少操作性繁琐工作的成功记录