资深 SRE 与基础设施工程师(GPU 集群平台可靠性与基础设施工程师)

27天前全职
100K - 200K USD / 年 MDA Edge

MDA Edge

location 旧金山
unsaved
这个混合角色涵盖平台可靠性和基础设施工程。您将对确保内部研究和外部客户的 GPU 集群环境的高可用性、容错性和性能至关重要。职责包括自动化 GPU 集群的入驻、增强监控、日志记录和安全系统,以及开发新的后端功能。 所需技能和认证: • 具备监控工具(例如,Prometheus、Grafana)和事件管理实践的丰富经验。 • 在使用 Ansible、Terraform 或类似工具进行基础设施自动化方面具有强大的技能。 • 深入理解日志框架、警报系统和主动监控解决方案。 • 精通 Python,用于开发自动化脚本、REST API 和后端支持工具。 • 拥有 Kubernetes 和云平台(优先考虑 GCP)的实践经验。 • 具备高性能网络和实时系统的知识。