云基础设施 - 站点可靠性工程师 (SRE)

旧金山 2天前全职 网络
面议
阿里巴巴云原生消息中间件团队负责消息产品,包括 RocketMQ 及其他消息产品。我们致力于为未来创建一个更稳定、用户友好、流式和大规模的消息平台。 云产品运营与可靠性 负责云中间件的稳定性维护、性能调优和高可用架构设计,包括消息中间件(Kafka/RocketMQ)。 管理 Kubernetes 集群上的容器化中间件生命周期:在 K8s 环境中实施部署、自动扩展、版本升级和资源优化。 事件响应与根本原因分析 通过日志分析、分布式追踪和监控系统,主导中间件相关事件(如消息积压、服务注册失败)的故障排除。 使用 Java/Go 开发诊断工具,以解决生产问题、性能瓶颈和兼容性挑战。 自动化与运营卓越 构建 Python/Go/Shell 自动化工具,以标准化中间件的部署、监控和灾难恢复工作流程。 实施混沌工程实验、容量规划策略和故障转移机制,以增强系统的弹性。 具备 Shell/Python 脚本技能,并有基础设施即代码(IaC)工具的经验(优先考虑 Terraform)。 最低资格: 经验:在分布式系统可靠性工程方面有超过 2 年的经验,熟悉高可用架构设计,并精通 Python、Go 或 Java 中的至少一种。 消息:具有 Kafka/RocketMQ 的集群管理、消息可靠性保证和性能优化的经验。 在 Kubernetes 上部署中间件的实践经验(优先考虑 Helm/Operator)。 自动化:能够将运营经验转化为自动化解决方案,并熟悉各种消息中间件,例如 Kafka 和 RocketMQ。 优先资格: SRE 实践:熟悉核心 SRE 实践(事件审查、错误预算、混沌工程),并在构建自动化风险控制系统方面具有经验。 此职位开始时的薪资范围预计在 $104,400 到 $171,000/年之间。然而,提供的基本薪资可能会根据多个个体因素而有所不同,包括市场位置、与工作相关的知识、技能和经验。 如果被录用,员工将处于“随意职位”,公司保留在任何时候修改基本薪资(以及任何其他酌情支付或补偿计划)的权利,包括与个人表现、公司或个人部门/团队表现以及市场因素相关的原因。