高级系统管理员/网站可靠性工程师 - Boson AI招聘

Boson AI是一家初创公司，正在为所有人构建大型语言工具。我们的创始人（Alex Smola，Mu Li）和一支由深度学习、优化、自然语言处理、自动化机器学习和统计学科学家和工程师组成的团队正在开发高质量的生成式人工智能语言模型及其他相关技术。职位描述：我们正在寻找一位高级基础设施工程师/系统管理员，帮助我们在多伦多运营数据中心部署，构建可扩展的机器学习训练工具，并管理公司范围的安全和运营。理想的候选人应具备以下一个或多个领域的背景：SRE（站点可靠性工程师）、系统管理员、MLOps工程师、网络管理员，并且能够进行一定程度的硬件配置。您将有机会使用最新的NVIDIA H100 GPU、数千个磁盘、千兆网络和数百台计算机。您将负责部署和运营各种基础设施技术和硬件系统。工作内容包括但不限于：管理私有大型高端GPU集群、负责物理系统的全生命周期，包括部署、运营、故障排除，配置和维护网络交换机（Tomahawk TH3、Mellanox Infiniband），配置和维护MAAS（金属即服务）、JuJu、KVM/OpenStack、Lustre/Ceph等分布式文件系统，使用基础设施即代码实践在规模上配置和自动化本地基于Linux的系统，配置和维护网络和安全工具，包括VPN、VLAN、DHCP、SSO、MFA等。您将有机会参与以下工作的合作：设计和开发用于训练和部署机器学习模型的基础设施，设计和开发支持机器学习模型部署和扩展的基础设施解决方案，在生产环境中实施自动化流程，以便部署和更新机器学习模型，遵循持续集成和部署（CI/CD）的最佳实践，优化性能，有效利用分布式系统和GPU资源进行模型推理和训练过程，及时解决问题并实施改进，监控和维护部署的机器学习系统的健康和性能，开发和维护机器学习基础设施设置、配置、故障排除指南和最佳实践的文档。如果您具备以下条件，则可能非常适合这个职位：系统运维方面的丰富经验，包括云平台（AWS、Azure、Google Cloud）、容器化（Docker）、编排（Kubernetes）和基础设施即代码（如Terraform）的经验，有本地数据中心运营和技术方面的经验，5年以上维护计算集群的经验，精通至少一种常用于机器学习的编程语言，如Python，并能编写干净、可维护的代码，具备在规模上设计、部署和维护生产级别的机器学习系统的经验，熟悉用于机器学习工作负载的GPU利用和优化技术，熟悉PyTorch或TensorFlow等框架更佳。