站点可靠性工程师 (SRE) - Air Apps招聘

关于 Air Apps 在 Air Apps，我们相信要有更大的思维——并且要更快地行动。我们是一家由家族创办的公司，致力于创造全球首个 AI 驱动的个人与企业资源规划器 (PRP)，我们需要您的热情与雄心来帮助我们改变人们的规划、工作和生活方式。我们于 2018 年在葡萄牙里斯本成立——现在在里斯本和旧金山都有办公室——我们保持自筹资金，并已在全球范围内达成超过 1 亿次下载。我们的长期关注驱动我们每天挑战现状，推动真正能带来改变的 AI 驱动解决方案的边界。在这里，您将成为一股创意力量，塑造能够赋能全球人民的产品。加入我们，共同踏上重新定义资源管理的旅程——并在这个过程中改变生活。角色作为 Air Apps 的站点可靠性工程师 (SRE)，您将负责确保我们系统的可靠性、可用性和可扩展性。您将工作在软件开发与运营的交汇处，实施自动化、监控和性能优化策略，以最小化停机时间并提高系统的韧性。职责 • 设计并实施可扩展、可靠且容错的系统，适用于云环境。 • 开发并维护可观察性工具，包括监控、日志记录和警报（例如：Prometheus、Grafana、Datadog、ELK）。 • 使用基础设施即代码 (IaC) 工具（如 Terraform 或 CloudFormation）自动化基础设施的配置、部署和事件响应。 • 优化系统性能、可扩展性和事件响应工作流程，以提高正常运行时间。 • 与开发和 DevOps 团队紧密合作，改进系统设计以增强可靠性。 • 进行根本原因分析 (RCA)，并实施预防措施以最小化故障。 • 通过设计和维护负载均衡、故障转移和灾难恢复策略，确保高可用性。 • 改进 CI/CD 流水线，以提高部署速度，同时保持稳定性。 • 优化 AWS、Azure 或 Google Cloud Platform (GCP) 的云成本和资源利用率。 • 参与值班轮换，以快速解决系统故障并最小化停机时间。要求 • 4年以上站点可靠性工程 (SRE)、DevOps 或系统工程的经验。 • 对云平台（AWS、Azure 或 GCP）和云原生架构有深入了解。 • 具备可观察性和监控工具（Prometheus、Grafana、ELK、Datadog、New Relic）的经验。 • 精通基础设施即代码 (IaC) 工具，如 Terraform、CloudFormation 或 Pulumi。 • 具备容器化和编排的实践经验（Docker、Kubernetes、Helm）。 • 扎实的 Linux 系统管理和网络基础知识。 • 具备事件管理、调试和根本原因分析的经验。 • 精通脚本编写（Bash、Python 或 Go），用于自动化和系统监控。 • 了解负载均衡、故障转移策略和分布式系统。 • 理解安全最佳实践、访问控制和合规要求。 • 具备良好的沟通能力，能够与跨职能团队合作。我们提供哪些福利？ • 用于工作的苹果硬件生态系统。 • 年度奖金。 • 医疗保险（包括视力和牙科）。 • 短期和长期的残疾保险。 • 401k 最高 4% 的贡献。 • 每年 3,120 美元的 Air 补贴，分 12 个月支付（用于家庭办公室、学习、健康等）。 • Air 会议——一个与团队见面、合作和共同成长的机会。多样性与包容性在 Air Apps，我们致力于营造一个多样化、包容性和公平的工作环境。我们热忱欢迎来自各个背景、经验和视角的申请者。我们庆祝各种形式的多样性，并相信多元的声音和经验使我们更强大。申请免责声明在 Air Apps，我们重视招聘过程中的透明度和诚信。申请者必须提交自己的工作，不能使用任何 AI 生成的帮助。任何在申请材料、评估或面试中使用 AI 的行为将导致资格被取消。