站点可靠性工程师 (SRE)

23天前全职
83.3万 - 143.7万 / 年 Air Apps

Air Apps

location 旧金山
unsaved
关于 Air Apps 在 Air Apps,我们相信要有更大的思维——并且要更快地行动。我们是一家由家族创办的公司,致力于创造全球首个 AI 驱动的个人与企业资源规划器 (PRP),我们需要您的热情与雄心来帮助我们改变人们的规划、工作和生活方式。我们于 2018 年在葡萄牙里斯本成立——现在在里斯本和旧金山都有办公室——我们保持自筹资金,并已在全球范围内达成超过 1 亿次下载。 我们的长期关注驱动我们每天挑战现状,推动真正能带来改变的 AI 驱动解决方案的边界。在这里,您将成为一股创意力量,塑造能够赋能全球人民的产品。 加入我们,共同踏上重新定义资源管理的旅程——并在这个过程中改变生活。 角色 作为 Air Apps 的站点可靠性工程师 (SRE),您将负责确保我们系统的可靠性、可用性和可扩展性。您将工作在软件开发与运营的交汇处,实施自动化、监控和性能优化策略,以最小化停机时间并提高系统的韧性。 职责 • 设计并实施可扩展、可靠且容错的系统,适用于云环境。 • 开发并维护可观察性工具,包括监控、日志记录和警报(例如:Prometheus、Grafana、Datadog、ELK)。 • 使用基础设施即代码 (IaC) 工具(如 Terraform 或 CloudFormation)自动化基础设施的配置、部署和事件响应。 • 优化系统性能、可扩展性和事件响应工作流程,以提高正常运行时间。 • 与开发和 DevOps 团队紧密合作,改进系统设计以增强可靠性。 • 进行根本原因分析 (RCA),并实施预防措施以最小化故障。 • 通过设计和维护负载均衡、故障转移和灾难恢复策略,确保高可用性。 • 改进 CI/CD 流水线,以提高部署速度,同时保持稳定性。 • 优化 AWS、Azure 或 Google Cloud Platform (GCP) 的云成本和资源利用率。 • 参与值班轮换,以快速解决系统故障并最小化停机时间。 要求 • 4年以上站点可靠性工程 (SRE)、DevOps 或系统工程的经验。 • 对云平台(AWS、Azure 或 GCP)和云原生架构有深入了解。 • 具备可观察性和监控工具(Prometheus、Grafana、ELK、Datadog、New Relic)的经验。 • 精通基础设施即代码 (IaC) 工具,如 Terraform、CloudFormation 或 Pulumi。 • 具备容器化和编排的实践经验(Docker、Kubernetes、Helm)。 • 扎实的 Linux 系统管理和网络基础知识。 • 具备事件管理、调试和根本原因分析的经验。 • 精通脚本编写(Bash、Python 或 Go),用于自动化和系统监控。 • 了解负载均衡、故障转移策略和分布式系统。 • 理解安全最佳实践、访问控制和合规要求。 • 具备良好的沟通能力,能够与跨职能团队合作。 我们提供哪些福利? • 用于工作的苹果硬件生态系统。 • 年度奖金。 • 医疗保险(包括视力和牙科)。 • 短期和长期的残疾保险。 • 401k 最高 4% 的贡献。 • 每年 3,120 美元的 Air 补贴,分 12 个月支付(用于家庭办公室、学习、健康等)。 • Air 会议——一个与团队见面、合作和共同成长的机会。 多样性与包容性 在 Air Apps,我们致力于营造一个多样化、包容性和公平的工作环境。我们热忱欢迎来自各个背景、经验和视角的申请者。我们庆祝各种形式的多样性,并相信多元的声音和经验使我们更强大。 申请免责声明 在 Air Apps,我们重视招聘过程中的透明度和诚信。申请者必须提交自己的工作,不能使用任何 AI 生成的帮助。任何在申请材料、评估或面试中使用 AI 的行为将导致资格被取消。