网站可靠性工程师（SRE）- LLM和机器学习 - Techruiter招聘

我们是一家开创性的技术公司，专注于先进的语言模型（LLM）和机器学习解决方案。我们正在寻找一位高技能的站点可靠性工程师（SRE）加入我们的团队，确保我们的LLM和机器学习基础设施的可靠性、可扩展性和性能。作为一名SRE，您将在维护我们的LLM和机器学习平台的稳定性和效率方面发挥关键作用。您将与跨职能团队密切合作，设计、实施和优化基础设施，监控系统健康状况，并响应事件，使我们的研究人员和工程师能够专注于创新。职责 • 基础设施设计和自动化：与工程和研究团队合作，设计、实施和自动化LLM和机器学习工作负载的基础设施，确保可扩展性和可靠性。 • 部署和配置：管理部署流水线、配置管理和编排工具，以简化模型和服务的部署。 • 监控和警报：实施和维护强大的监控、警报和日志系统，主动识别和解决问题。确保系统性能最佳。 • 事件响应：领导事件响应工作，调查停机的根本原因，并实施预防措施，减少再次发生的可能性。 • 容量规划：进行容量规划和扩展，以适应不断增长的工作负载，并确保资源利用效率。 • 安全和合规性：与安全团队合作，为LLM和机器学习系统实施安全最佳实践、漏洞评估和合规要求。 • 持续改进：通过自动化和优化不断评估和改进系统的可靠性、性能和效率。 • 文档：为基础设施配置、流程和事件报告维护全面的文档。要求 • 计算机科学、信息技术或相关领域的学士或硕士学位。 • 在站点可靠性工程师或相关角色方面具有LLM和机器学习基础设施的经验。 • 熟练掌握云平台（如AWS、Azure、GCP）和容器化技术（如Docker、Kubernetes）。熟悉配置管理工具（如Ansible、Terraform）和CI/CD流水线。 • 了解监控和可观察性工具（如Prometheus、Grafana、ELK Stack）。具备脚本编写和自动化技能（如Python、Bash）。优秀的问题解决和故障排除能力。 • 良好的沟通和协作能力。

Site Reliability Engineer (SRE) - LLM and Machine Learning

Techruiter