开发运维

纽约 6天前合同 网络
面议
关于10a实验室:10a实验室是一家应用研究和人工智能安全公司,受到AI独角兽公司、财富10强公司和美国科技领袖的信任。我们结合专有技术、深厚的专业知识和多语言威胁情报,以大规模检测滥用行为。我们还在高影响力的安全和安全挑战中提供最先进的红队测试。 3个月合同 | 远程 | 高影响力 关于该职位:我们正在寻找一位专注于基础设施的DevOps/MLOps工程师,他能够在机器学习、系统和产品交付的交汇处茁壮成长。这是一个为期3个月的合同角色,负责部署、监控和扩展用于实时ML驱动的内容审核系统的测试和部署基础设施,该系统用于检测和分类滥用、威胁和边缘案例语言。 在这个角色中,你将: - 设计、构建和记录一个可维护的GCP云基础设施CI/CD管道,用于实时模型服务和数据工作流 - 部署和优化低延迟ML系统的API - 自动化模型部署、再训练和评估(ML的CI/CD) - 构建可观察性工具以监控发布、错误、集成测试和ML管道中的漂移 - 确保基础设施满足安全性、合规性和正常运行时间要求 我们正在寻找的人: - 拥有3-8年DevOps/平台工程经验,部署机器学习系统或高可用性后端系统。 - 能够从头构建CI/CD管道;熟悉GitHub Actions或类似工具。 - 精通Git和GitHub工作流,并具备Python、Bash和/或Go的强大脚本编写能力。 - 具有Google Cloud Run和Docker经验。熟悉Google Cloud Platforms、Docker、Kubernetes、Terraform。 - 熟悉SOC 2合规要求和安全最佳实践(IAM、秘密等)。 - 具有实施监控、日志记录和警报系统的经验(例如,Prometheus、Grafana、ELK/EFK、OpenTelemetry)。 - 能够与ML、安全和工程团队跨职能合作,以安全部署并快速迭代。 - 在模糊环境中带来建设者的心态和对所有权的偏好。 在3个月内成功的标志: - 你已经部署并监控了一个具有明确可观察性的实时ML推理系统。 - 你已经实现了一个API,其分类器推理的延迟低于1000毫秒。 - 你已经与ML工程师合作以简化部署和再训练工作流。 - 你已经建立了日志记录和监控系统,以提供对系统性能和分类器行为的洞察。