职位概要:
我们正在寻找一位技术娴熟且积极进取的云工程师,专注于AI工作负载,设计、实施和维护针对AI和生成式AI工作负载优化的云基础设施。此职位涉及云资源的配置、部署自动化、集成云原生AI服务,并确保在AWS、Azure和GCP平台上实现安全、可扩展和可观察的AI/ML环境。
主要职责:
云平台和AI服务管理:
管理和排除AWS和Azure上的AI/ML服务故障。
应用最佳实践管理云原生AI服务,如Azure OpenAI和AWS SageMaker。
支持AI工作负载的混合和多云环境。
AI/ML平台工程:
在云中部署和管理安全、可扩展的AI/ML工作负载。
将向量数据库和相似性搜索服务集成到AI管道中。
基础设施即代码(IaC):
使用Terraform、Bicep和CloudFormation配置AI就绪的基础设施。
维护可重用的IaC模块,以实现一致和自动化的部署。
API管理与集成:
设计和维护AI驱动应用程序的API网关(例如,Azure API管理)。
确保ML服务的API集成安全且可扩展。
AI管道的DevOps和CI/CD:
构建和维护ML模型训练、部署和再训练的CI/CD工作流。
与GitHub Actions或Azure DevOps等工具集成。
脚本和自动化:
开发Python、Bash或PowerShell的自动化脚本,用于配置、数据准备和操作任务。
容器编排:
使用Kubernetes部署和管理容器化的AI工作负载。
确保运行时环境的安全并管理资源扩展。
安全与合规:
为基于云的LLM和AI服务实施加密、访问控制和合规政策。
与信息安全团队合作,执行治理标准。
监控与可观察性:
使用Prometheus和ELK等工具设置AI模型性能和基础设施健康的指标、日志和警报。
所需技能和资格:
5年以上管理云平台(AWS、Azure、GCP)经验,包括AI/ML服务。
具有Azure OpenAI、AWS SageMaker或类似平台的实际操作经验。
熟练使用基础设施即代码工具(Terraform、Bicep、CloudFormation)。
具有API管理工具(例如,Azure API管理)的经验。
精通Python、Bash或PowerShell的脚本编写技能。
具有部署和管理Kubernetes集群的经验。
了解云原生向量数据库和相似性搜索服务。
理解AI/ML的云安全原则和合规性。
熟悉Prometheus、Grafana和ELK等监控工具。
优秀的问题解决和协作技能。
软技能:
强大的沟通和跨职能协作能力。
具有分析思维和积极主动解决问题的态度。
渴望学习和采用新兴的云AI技术。