我们所做的:
Zefr 是全球领先的技术公司,致力于在封闭的社交环境中实现负责任的营销。Zefr 的解决方案使品牌能够在 YouTube、Meta、TikTok 和 Snap 等大规模平台上根据行业标准框架管理其内容邻接。通过其专利的 AI 技术,Zefr 为品牌和代理商提供更准确和透明的社交封闭环境解决方案。公司总部位于加利福尼亚州洛杉矶,并在全球设有多个办事处。
你的职责:
作为 Zefr 的首席站点可靠性工程师,你将担任技术领导者和主题专家,帮助定义技术愿景并塑造我们在整个组织中的可靠性实践方向。
你将利用在可观测性、核心 SRE 原则、云基础设施、CI/CD 和 DevSecOps 方面的深厚专业知识来解决我们最复杂的挑战,并为工程卓越设定标准。
这个角色需要结合动手的技术专长和战略思维。你将推动跨职能的倡议,指导团队中的工程师,并与领导层合作,确保我们的 AI 驱动平台稳健、高效且可扩展。
我们正在寻找能够将技术专长与强大的领导能力和对持续改进与创新的热情结合的人。Zefr 希望候选人能够将可靠性视为产品特性,并将复杂的技术概念转化为战略。这是一个你将塑造我们如何在大规模构建和操作系统的角色。
- 支持和构建系统和工具,使其他工程师能够快速且安全地生成、部署和管理产品特性和模型。
- 部署和支持多云微服务架构,包括通过 Github Actions、ArgoCD 和 Kubernetes 部署的适用于 ML 工作负载的基础设施。
- 与其他工程师合作,在 AWS 和 GCP 中架构安全、弹性、可扩展和成本高效的应用程序和 ML 系统/管道。
- 通过鼓励所有工程团队的持续改进,推动我们的 DevOps 文化和理念。
- 主动维护生产环境的健康,包括监控应用程序性能和资源利用。
- 参与 24/7 的随叫随到轮班,响应系统性能问题和故障。
- 在应用程序和基础设施层面调试代码。
- 成熟我们的 CI/CD 工作流程和发布流程。
- 保持前瞻性思维,积极研究和提出新解决方案。
- 提出和审查工程请求评论 (RFC),以推动工程架构和实践。
Zefr 的技术栈:
核心基础设施和云平台:
- 云提供商:Google Cloud Platform(主要),Amazon Web Services 基础设施即代码 (IaC):Terraform,Terragrunt
- 容器化和编排:Docker,Kubernetes(期望有 GKE 和/或 EKS 经验),Helm,Kustomize
- 服务网格:Istio
CI/CD 和自动化:
- CI/CD 管道:GitHub Actions
- GitOps / 持续交付:Argo CD
- 主要脚本/自动化语言:Python
可观测性和监控:
- 监控和警报:Prometheus,Chronosphere,Pagerduty
- 遥测标准:OpenTelemetry
应用程序和数据生态系统(支持):
- 应用程序语言/框架:Python,FastAPI,Flask,Node.js,React
- 数据流:Apache Kafka
- 数据处理/转换:Pandas,DBT
- 工作流编排:Apache Airflow,Ray
数据存储和数据库:
- 关系数据库:PostgreSQL(包括 AWS Aurora、GCP Cloud SQL 等托管版本)
- NoSQL 数据库:DynamoDB
- 搜索数据库:OpenSearch
- 向量数据库:Qdrant
- 缓存:Redis
- 数据仓库:Snowflake
我们正在寻找的:
- 超过 10 年的工作历史,设计、管理、部署和支持生产环境中的云基础设施,使用主要的公共云提供商(GCP 经验是一个巨大的加分)
- 广告或广告技术领域的经验
- 展示过的技术领导经验;包括指导工程师、推动跨职能项目以及在组织层面影响架构决策。
- 了解 GitOps,包括对现代 CI/CD 管道、技术和技术的理解(Github Actions、GitLab、CircleCI、Argo CD、Flux)
- 高级精通 IaC 和配置管理工具(Terraform,Terragrunt,OpenTofu,Crossplane,Pulumi)
- 在 Kubernetes 集群中架构、管理、部署和支持基于容器的工作负载的深厚生产经验
- 在构建和扩展可靠性实践方面有成功记录,包括 SLO/SLI 框架、事件管理和容量规划。
- 在可观测性平台和实践方面有丰富的生产经验(Prometheus,Grafana,Chronosphere,Datadog,OpenTelemetry);能够为复杂的分布式系统设计监控策略。
- 对云网络(网格、NAT、负载均衡器、API 网关、代理等)、云安全和成本优化策略有深入了解。
- 出色的书面和口头沟通能力;能够为不同的受众翻译复杂的技术概念,并在团队之间建立共识。
- 有撰写技术战略文档、RFC 和架构提案的经验。
福利(针对美国员工):
- 灵活的带薪休假
- 医疗、牙科和视力保险,提供 FSA 选项
- 公司支付的人寿保险
- 带薪育儿假
- 401(k) 公司匹配
- 职业发展机会
- 13 个带薪假期
- 夏季周五(我们提早下班)
- 提供办公室、混合和完全远程工作选项
- 办公室午餐和大量免费食物
- 可选的面对面和虚拟活动(我们喜欢庆祝!)
薪酬(针对美国员工):
该职位的预期薪资在 210,000 美元到 235,000 美元之间。在此范围内,个人薪酬由与工作相关的技能、经验以及相关教育或培训等因素决定。如果您的薪酬期望超出此范围,仍然值得进行对话。
Zefr 是一个平等机会雇主,拥抱工作场所的多样性和包容性。我们致力于建立一个代表各种背景、技能和观点的团队,因为我们知道这只会让我们变得更好。我们强烈鼓励女性、有色人种、LGBTQIA+ 个人、残疾人士、少数族裔成员、外籍居民和退伍军人申请,即使您不符合 100% 的资格。