AI DevOps和云基础设施工程师

圣弗朗西斯科 4天前全职 网络
1K - 2K / 年
您的 Crowe 之旅从这里开始: 在 Crowe,您可以建立一份有意义且有回报的职业。您可以真正灵活地平衡工作与生活时刻,您被信任交付结果并产生影响。我们接受真实的您,关心您的福祉,并培养您的职业生涯。每个人都有公平的机会获得职业成长和领导力。在我们80多年的历史中,通过创新提供卓越服务一直是我们审计、税务和咨询团队的核心部分。这就是为什么我们不断投资于创新理念,如人工智能驱动的洞察力和技术驱动的解决方案,以提升我们的服务。加入 Crowe,开启一段您可以帮助塑造我们行业未来的职业生涯。 职位描述: 关于 Crowe 的 AI 转型 我们所做的一切都是为了使人类工作的未来更有意义。我们通过利用最先进的技术、现代架构和行业专家来创建 AI 驱动的解决方案,改变客户的业务方式。 新的 AI 转型团队将建立在 Crowe 已有的 AI 基础上,进一步增强我们应用 AI/机器学习团队的能力。通过结合生成式 AI、机器学习和软件工程,这个团队使 Crowe 的客户能够通过 AI 转变其业务模式,无论他们当前的 AI 采用阶段如何。 作为 AI 转型团队的一员,您将帮助 Crowe 在市场上脱颖而出,并推动公司的技术和创新战略。未来由 AI 驱动,来与我们一起构建它。 关于团队 - 我们投资于专业知识。您将有时间、空间和支持深入项目,建立持久的技术和战略掌握。您将与开发人员、产品利益相关者和项目经理合作,成为值得信赖的领导者和领域专家。 - 我们相信持续成长。我们的团队致力于专业发展和知识共享。 - 我们保护平衡。我们的分布式团队文化以信任和灵活性为基础。我们提供无限制的带薪休假、灵活的远程工作政策和优先考虑可持续、长期绩效的支持性环境。 关于角色 AI DevOps 和云基础设施工程师 I(高级员工)设计、构建和运营可扩展、安全且高度自动化的云环境,以支持 AI 和机器学习系统的训练、部署、监控和持续交付。此角色在基础设施自动化、分布式计算编排和云平台运营方面担任主题专家,确保 AI 工作负载在开发、暂存和生产环境中可靠运行。 工程师与 AI 工程、MLOps、数据工程、平台和安全团队密切合作,定义基础设施需求,提高可观察性,并支持预测和生成式 AI 工作负载的性能需求。作为高级员工级别的贡献者,该角色建立最佳实践,评估新兴的云和 AI 基础设施工具,并指导初级工程师提高组织的 DevOps 成熟度、可靠性和成本效率。 - 架构和维护用于 AI 模型训练、推理服务和分布式计算工作负载的云基础设施。 - 实施基础设施即代码(IaC),以自动化云资源的供应、配置、扩展和生命周期管理。 - 设计和操作 CI/CD 管道,用于自动化模型训练、测试和 AI 驱动应用程序的部署。 - 优化 Kubernetes 集群、GPU 利用率和计算扩展策略,以平衡性能、可靠性和成本。 - 将 AI 模型、推理端点和数据管道集成到云原生平台中。 - 使用现代遥测和跟踪工具开发监控、日志记录、警报和可观察性解决方案。 - 解决网络、容器、计算、存储和模型服务层的问题。 - 领导 AI 系统的性能基准测试、负载测试和可靠性验证。 - 记录基础设施架构、操作运行手册和工程标准。 - 支持数据集摄取、模型版本控制、工件管理和 ML 测试的自动化。 - 确保符合云安全、身份管理、加密和负责任的 AI 指南。 - 与安全团队合作实施安全网络、IAM 策略和机密管理。 - 为初级工程师提供技术指导、设计评审和云最佳实践指导。 - 评估新云服务、平台功能和 AI 基础设施工具以供采用。 资格 - 4年以上 DevOps、云工程、平台工程或基础设施工程经验。 - 精通 Kubernetes、Docker 和云编排平台。 - 深入了解 CI/CD 系统和部署自动化。 - 展示调试分布式系统和云网络问题的能力。 - 精通 Python、Bash 或其他自动化/脚本语言。 - 良好的沟通能力和跨工程和安全团队的协作能力。 - 愿意偶尔出差进行跨职能规划和协作。 优先资格 - 计算机科学、云工程、信息系统或相关技术领域的学士学位,或同等经验。 - 技术学科的硕士学位。 - 在生产环境中大规模启用 ML 或 AI 工作负载的经验。 - 云和平台认证,包括 Azure(AZ-900、AZ-104、AZ-305、AZ-700、AI-102)或同等的 AWS/GCP 认证。 - 拥有 AWS(例如 EKS、EC2、IAM、Lambda、SageMaker)和/或 Azure(例如 AKS、VMSS、Azure ML)的高级经验。 - 拥有 GPU 编排和 AI 工作负载扩展策略的经验。 - 熟悉 Terraform 或其他基础设施即代码框架。 - 拥有 Prometheus、Grafana、CloudWatch 和 OpenTelemetry 等可观察性堆栈的实际经验。 - 部署和操作生成式 AI 工作负载的经验,包括 LLM 推理自动扩展和 RAG 架构。 - 熟悉向量数据库托管(例如 Pinecone、Weaviate、FAISS)和模型服务框架(例如 Hugging Face TGI、vLLM、自定义推理容器)。 - 构建 LLM 微调工作流(例如 LoRA、QLoRA、PEFT)的 CI/CD 管道和监控生成式 AI 性能指标(如延迟、吞吐量和幻觉率)的经验。 我们期望候选人坚持 Crowe 的关怀、信任、勇气和管理价值观。这些价值观定义了我们是谁。我们期望所有员工始终以道德和诚信行事。 该职位的申请截止日期为 2026年3月31日。 根据联邦法律,所有被录用的人都需要在被录用时验证身份和在美国工作的资格,并完成所需的就业资格验证表格。Crowe 目前不为工作授权提供赞助。 该职位的工资范围考虑了在做出薪酬决策时考虑的广泛因素,包括但不限于技能组、经验和培训、执照和认证以及其他业务和组织需求。披露的范围估计尚未根据可能填补职位的地点的适用地理差异进行调整。在 Crowe,个人通常不会被聘用在其角色范围的顶部附近,薪酬决策取决于每个案例的事实和情况。目前范围的合理估计为每年 74,100.00 美元 - 147,800.00 美元。 我们的福利: 您的卓越员工体验从这里开始。在 Crowe,我们知道优秀的人才造就了优秀的公司。我们关心我们的员工,并为员工提供全面的总奖励计划。了解更多关于在 Crowe 工作对您的意义! 您可以如何成长: 我们将在重视多样性的包容性文化中培养您的才能。您将有机会与您的职业教练定期会面,他们将指导您实现职业目标和愿望。了解更多关于人才可以繁荣的地方! 关于 Crowe: Crowe(www.crowe.com)是美国最大的公共会计、咨询和技术公司之一。Crowe 利用其深厚的行业专业知识为公共和私人实体提供审计服务,同时还通过税务、咨询、风险和绩效服务帮助客户实现目标。Crowe 被许多组织公认为美国最佳工作场所之一。Crowe 作为 Crowe Global 的独立成员为全球客户服务,Crowe Global 是世界上最大的全球会计网络之一。该网络由全球 130 多个国家的 200 多家独立会计和咨询服务公司组成。 Crowe LLP 为所有员工和求职者提供平等的就业机会,并禁止任何类型的歧视和骚扰,无论种族、肤色、宗教、年龄、性别、性取向、性别认同或表达、遗传、国籍、残疾或受保护的退伍军人身份,或任何其他受联邦、州或地方法律保护的特征。 Crowe LLP 不接受任何招聘机构、招聘服务、资源实体或任何其他第三方付费服务的未经请求的候选人、推荐或简历。任何提交给 Crowe 或 Crowe 的任何员工或所有者的推荐、简历或候选人,如果没有双方签署的现有协议涵盖提交内容,将被视为 Crowe 的财产,并且免费。 Crowe 将根据适用的州和地方法律,包括洛杉矶市的公平机会招聘条例、洛杉矶县公平机会条例、旧金山公平机会条例和加利福尼亚公平机会法,以符合要求的方式考虑所有合格申请人,包括有犯罪记录的申请人。 请访问我们的网站查看适用的州和地方禁止询问犯罪记录法律和公平机会条例的通知。