关于 Air Apps
在 Air Apps,我们相信要有更大的思维——并且要更快地行动。我们是一家由家族创办的公司,致力于创造全球首个 AI 驱动的个人与企业资源规划器 (PRP),我们需要您的热情与雄心来帮助我们改变人们的规划、工作和生活方式。我们于 2018 年在葡萄牙里斯本成立——现在在里斯本和旧金山都有办公室——我们保持自筹资金,并已在全球范围内达成超过 1 亿次下载。
我们的长期关注驱动我们每天挑战现状,推动真正能带来改变的 AI 驱动解决方案的边界。在这里,您将成为一股创意力量,塑造能够赋能全球人民的产品。
加入我们,共同踏上重新定义资源管理的旅程——并在这个过程中改变生活。
角色
作为 Air Apps 的站点可靠性工程师 (SRE),您将负责确保我们系统的可靠性、可用性和可扩展性。您将工作在软件开发与运营的交汇处,实施自动化、监控和性能优化策略,以最小化停机时间并提高系统的韧性。
职责
• 设计并实施可扩展、可靠且容错的系统,适用于云环境。
• 开发并维护可观察性工具,包括监控、日志记录和警报(例如:Prometheus、Grafana、Datadog、ELK)。
• 使用基础设施即代码 (IaC) 工具(如 Terraform 或 CloudFormation)自动化基础设施的配置、部署和事件响应。
• 优化系统性能、可扩展性和事件响应工作流程,以提高正常运行时间。
• 与开发和 DevOps 团队紧密合作,改进系统设计以增强可靠性。
• 进行根本原因分析 (RCA),并实施预防措施以最小化故障。
• 通过设计和维护负载均衡、故障转移和灾难恢复策略,确保高可用性。
• 改进 CI/CD 流水线,以提高部署速度,同时保持稳定性。
• 优化 AWS、Azure 或 Google Cloud Platform (GCP) 的云成本和资源利用率。
• 参与值班轮换,以快速解决系统故障并最小化停机时间。
要求
• 4年以上站点可靠性工程 (SRE)、DevOps 或系统工程的经验。
• 对云平台(AWS、Azure 或 GCP)和云原生架构有深入了解。
• 具备可观察性和监控工具(Prometheus、Grafana、ELK、Datadog、New Relic)的经验。
• 精通基础设施即代码 (IaC) 工具,如 Terraform、CloudFormation 或 Pulumi。
• 具备容器化和编排的实践经验(Docker、Kubernetes、Helm)。
• 扎实的 Linux 系统管理和网络基础知识。
• 具备事件管理、调试和根本原因分析的经验。
• 精通脚本编写(Bash、Python 或 Go),用于自动化和系统监控。
• 了解负载均衡、故障转移策略和分布式系统。
• 理解安全最佳实践、访问控制和合规要求。
• 具备良好的沟通能力,能够与跨职能团队合作。
我们提供哪些福利?
• 用于工作的苹果硬件生态系统。
• 年度奖金。
• 医疗保险(包括视力和牙科)。
• 短期和长期的残疾保险。
• 401k 最高 4% 的贡献。
• 每年 3,120 美元的 Air 补贴,分 12 个月支付(用于家庭办公室、学习、健康等)。
• Air 会议——一个与团队见面、合作和共同成长的机会。
多样性与包容性
在 Air Apps,我们致力于营造一个多样化、包容性和公平的工作环境。我们热忱欢迎来自各个背景、经验和视角的申请者。我们庆祝各种形式的多样性,并相信多元的声音和经验使我们更强大。
申请免责声明
在 Air Apps,我们重视招聘过程中的透明度和诚信。申请者必须提交自己的工作,不能使用任何 AI 生成的帮助。任何在申请材料、评估或面试中使用 AI 的行为将导致资格被取消。