网站可靠性工程师(SRE)- LLM和机器学习

16个月前全职
Techruiter

Techruiter

location 伦敦
unsaved
我们是一家开创性的技术公司,专注于先进的语言模型(LLM)和机器学习解决方案。我们正在寻找一位高技能的站点可靠性工程师(SRE)加入我们的团队,确保我们的LLM和机器学习基础设施的可靠性、可扩展性和性能。 作为一名SRE,您将在维护我们的LLM和机器学习平台的稳定性和效率方面发挥关键作用。您将与跨职能团队密切合作,设计、实施和优化基础设施,监控系统健康状况,并响应事件,使我们的研究人员和工程师能够专注于创新。 职责 • 基础设施设计和自动化:与工程和研究团队合作,设计、实施和自动化LLM和机器学习工作负载的基础设施,确保可扩展性和可靠性。 • 部署和配置:管理部署流水线、配置管理和编排工具,以简化模型和服务的部署。 • 监控和警报:实施和维护强大的监控、警报和日志系统,主动识别和解决问题。确保系统性能最佳。 • 事件响应:领导事件响应工作,调查停机的根本原因,并实施预防措施,减少再次发生的可能性。 • 容量规划:进行容量规划和扩展,以适应不断增长的工作负载,并确保资源利用效率。 • 安全和合规性:与安全团队合作,为LLM和机器学习系统实施安全最佳实践、漏洞评估和合规要求。 • 持续改进:通过自动化和优化不断评估和改进系统的可靠性、性能和效率。 • 文档:为基础设施配置、流程和事件报告维护全面的文档。 要求 • 计算机科学、信息技术或相关领域的学士或硕士学位。 • 在站点可靠性工程师或相关角色方面具有LLM和机器学习基础设施的经验。 • 熟练掌握云平台(如AWS、Azure、GCP)和容器化技术(如Docker、Kubernetes)。熟悉配置管理工具(如Ansible、Terraform)和CI/CD流水线。 • 了解监控和可观察性工具(如Prometheus、Grafana、ELK Stack)。具备脚本编写和自动化技能(如Python、Bash)。优秀的问题解决和故障排除能力。 • 良好的沟通和协作能力。