关于10a实验室:10a实验室是一家应用研究和人工智能安全公司,受到AI独角兽公司、财富10强公司和美国科技领袖的信任。我们结合专有技术、深厚的专业知识和多语言威胁情报,以大规模检测滥用行为。我们还在高影响力的安全和安全挑战中提供最先进的红队测试。
3个月合同 | 远程 | 高影响力
关于该职位:我们正在寻找一位专注于基础设施的DevOps/MLOps工程师,他能够在机器学习、系统和产品交付的交汇处茁壮成长。这是一个为期3个月的合同角色,负责部署、监控和扩展用于实时ML驱动的内容审核系统的测试和部署基础设施,该系统用于检测和分类滥用、威胁和边缘案例语言。
在这个角色中,你将:
- 设计、构建和记录一个可维护的GCP云基础设施CI/CD管道,用于实时模型服务和数据工作流
- 部署和优化低延迟ML系统的API
- 自动化模型部署、再训练和评估(ML的CI/CD)
- 构建可观察性工具以监控发布、错误、集成测试和ML管道中的漂移
- 确保基础设施满足安全性、合规性和正常运行时间要求
我们正在寻找的人:
- 拥有3-8年DevOps/平台工程经验,部署机器学习系统或高可用性后端系统。
- 能够从头构建CI/CD管道;熟悉GitHub Actions或类似工具。
- 精通Git和GitHub工作流,并具备Python、Bash和/或Go的强大脚本编写能力。
- 具有Google Cloud Run和Docker经验。熟悉Google Cloud Platforms、Docker、Kubernetes、Terraform。
- 熟悉SOC 2合规要求和安全最佳实践(IAM、秘密等)。
- 具有实施监控、日志记录和警报系统的经验(例如,Prometheus、Grafana、ELK/EFK、OpenTelemetry)。
- 能够与ML、安全和工程团队跨职能合作,以安全部署并快速迭代。
- 在模糊环境中带来建设者的心态和对所有权的偏好。
在3个月内成功的标志:
- 你已经部署并监控了一个具有明确可观察性的实时ML推理系统。
- 你已经实现了一个API,其分类器推理的延迟低于1000毫秒。
- 你已经与ML工程师合作以简化部署和再训练工作流。
- 你已经建立了日志记录和监控系统,以提供对系统性能和分类器行为的洞察。