关于职位
• 维护 Azure 托管的人工智能平台的稳定性、可扩展性和性能。
• 主动监控、故障检测和事件响应,以最小化停机时间。
• 建立和管理灾难恢复和业务连续性框架。
• 监督网络安全操作,包括风险评估、漏洞修复和安全审计。
• 与工程和人工智能/机器学习团队合作,改善自动化、可观察性和运营流程。
技能和要求
• 计算机科学、工程或相关学科的学士学位。
• 至少 6 年云基础设施管理的实际经验。
• 在 Azure 操作方面具有较强的专业能力,包括监控和诊断工具(如 Azure Monitor、Log Analytics、Application Insights)。
• 在 SRE 方法论、事件管理和恢复计划方面具有丰富经验。
• 精通云安全操作,如身份和访问管理(IAM)、安全信息和事件管理(SIEM/SOAR)、漏洞管理和终端保护。
• 精通基础设施即代码(Terraform、Bicep、ARM)和脚本语言(PowerShell、Python)。
• 理解人工智能/机器学习工作负载及相关基础设施组件(如 AKS、GPU 环境、数据管道)。
• 了解行业安全框架,如 ISO 27001、CIS 或 NIST。
如需在线申请,请使用“申请”功能,或联系 Stella,电话 96554170(EA: 94C3609 / R1875382)