云工程师

迪拜 无个税4天前合同 网络
面议
职位概要: 我们正在寻找一位技术娴熟且积极进取的云工程师,专注于AI工作负载,设计、实施和维护针对AI和生成式AI工作负载优化的云基础设施。此职位涉及云资源的配置、部署自动化、集成云原生AI服务,并确保在AWS、Azure和GCP平台上实现安全、可扩展和可观察的AI/ML环境。 主要职责: 云平台和AI服务管理: 管理和排除AWS和Azure上的AI/ML服务故障。 应用最佳实践管理云原生AI服务,如Azure OpenAI和AWS SageMaker。 支持AI工作负载的混合和多云环境。 AI/ML平台工程: 在云中部署和管理安全、可扩展的AI/ML工作负载。 将向量数据库和相似性搜索服务集成到AI管道中。 基础设施即代码(IaC): 使用Terraform、Bicep和CloudFormation配置AI就绪的基础设施。 维护可重用的IaC模块,以实现一致和自动化的部署。 API管理与集成: 设计和维护AI驱动应用程序的API网关(例如,Azure API管理)。 确保ML服务的API集成安全且可扩展。 AI管道的DevOps和CI/CD: 构建和维护ML模型训练、部署和再训练的CI/CD工作流。 与GitHub Actions或Azure DevOps等工具集成。 脚本和自动化: 开发Python、Bash或PowerShell的自动化脚本,用于配置、数据准备和操作任务。 容器编排: 使用Kubernetes部署和管理容器化的AI工作负载。 确保运行时环境的安全并管理资源扩展。 安全与合规: 为基于云的LLM和AI服务实施加密、访问控制和合规政策。 与信息安全团队合作,执行治理标准。 监控与可观察性: 使用Prometheus和ELK等工具设置AI模型性能和基础设施健康的指标、日志和警报。 所需技能和资格: 5年以上管理云平台(AWS、Azure、GCP)经验,包括AI/ML服务。 具有Azure OpenAI、AWS SageMaker或类似平台的实际操作经验。 熟练使用基础设施即代码工具(Terraform、Bicep、CloudFormation)。 具有API管理工具(例如,Azure API管理)的经验。 精通Python、Bash或PowerShell的脚本编写技能。 具有部署和管理Kubernetes集群的经验。 了解云原生向量数据库和相似性搜索服务。 理解AI/ML的云安全原则和合规性。 熟悉Prometheus、Grafana和ELK等监控工具。 优秀的问题解决和协作技能。 软技能: 强大的沟通和跨职能协作能力。 具有分析思维和积极主动解决问题的态度。 渴望学习和采用新兴的云AI技术。