资深 SRE 与基础设施工程师（GPU 集群平台可靠性与基础设施工程师） - MDA Edge招聘

这个混合角色涵盖平台可靠性和基础设施工程。您将对确保内部研究和外部客户的 GPU 集群环境的高可用性、容错性和性能至关重要。职责包括自动化 GPU 集群的入驻、增强监控、日志记录和安全系统，以及开发新的后端功能。所需技能和认证： • 具备监控工具（例如，Prometheus、Grafana）和事件管理实践的丰富经验。 • 在使用 Ansible、Terraform 或类似工具进行基础设施自动化方面具有强大的技能。 • 深入理解日志框架、警报系统和主动监控解决方案。 • 精通 Python，用于开发自动化脚本、REST API 和后端支持工具。 • 拥有 Kubernetes 和云平台（优先考虑 GCP）的实践经验。 • 具备高性能网络和实时系统的知识。