这个混合角色涵盖平台可靠性和基础设施工程。您将对确保内部研究和外部客户的 GPU 集群环境的高可用性、容错性和性能至关重要。职责包括自动化 GPU 集群的入驻、增强监控、日志记录和安全系统,以及开发新的后端功能。
所需技能和认证:
• 具备监控工具(例如,Prometheus、Grafana)和事件管理实践的丰富经验。
• 在使用 Ansible、Terraform 或类似工具进行基础设施自动化方面具有强大的技能。
• 深入理解日志框架、警报系统和主动监控解决方案。
• 精通 Python,用于开发自动化脚本、REST API 和后端支持工具。
• 拥有 Kubernetes 和云平台(优先考虑 GCP)的实践经验。
• 具备高性能网络和实时系统的知识。