职责
字节跳动大模型团队致力于开发行业内最先进的AI大模型技术,成为世界一流的研究团队,为技术和社会发展做出贡献。大模型团队在AI领域具有长期的愿景和决心,研究方向涵盖NLP、CV、语音等领域。依托平台丰富的数据和计算资源,团队持续在相关领域投入,并推出了自有的通用大模型,提供多模态能力。机器学习(ML)系统子团队结合系统工程和机器学习的艺术,开发和维护全球大规模分布式ML训练和推理系统/服务,为LLM/AIGC/AGI提供高性能、高可靠性、可扩展的系统。
在我们的团队中,您将有机会构建与GPU/NPU/RDMA/存储集成的大规模异构系统,并保持其稳定可靠运行,丰富您的编码、性能分析和分布式系统的专业知识,并参与决策过程。您还将成为一个由来自美国、中国和新加坡的成员组成的全球团队的一部分,共同朝着统一的项目方向努力。
职责
• 负责确保我们的ML系统在大模型部署、训练、评估和推理方面高效运行
• 负责多数据中心、多区域和多云场景下离线任务/服务的稳定性
• 负责资源管理和规划、成本和预算,包括计算和存储资源
• 负责全球系统灾难恢复、集群机器治理、业务服务稳定性、资源利用率提升和运营效率提升
• 构建软件工具、产品和系统以高效监控和管理ML基础设施和服务
• 成为全球团队值班表的一部分,确保系统和业务的随时支持
资格
最低资格
• 计算机科学、计算机工程或相关领域的学士学位或以上;
• 在Linux环境中至少精通一种编程语言,如Go/Python/Shell;
• 拥有Kubernetes和容器技能的丰富实践经验,并有超过1年的相关运维经验; 优先资格
• 参与大规模ML分布式系统的运维;
• 具有GPU服务器的运维经验
• 具备优秀的逻辑分析能力,能够合理抽象和拆分业务逻辑,责任心强,学习能力好,沟通能力强,自驱力强,具备良好的团队精神;
• 具备良好的文档编写原则和习惯,能够按时撰写和更新工作流程和技术文档。
职位信息
关于我们
字节跳动成立于2012年,使命是激发创造力,丰富生活。通过包括TikTok、Lemon8、CapCut和Pico在内的十多个产品,以及包括今日头条、抖音和西瓜视频在内的中国市场特定平台,字节跳动让人们更容易、更有趣地连接、消费和创作内容。
为什么加入字节跳动
激发创造力是字节跳动使命的核心。我们的创新产品旨在帮助人们真实地表达自己、发现和连接——我们的全球多元化团队使这一切成为可能。我们共同为社区创造价值,激发创造力,丰富生活——这是我们每天努力实现的使命。
作为字节跳动员工,我们努力与优秀的人一起做伟大的事情。我们以好奇心、谦逊和在快速发展的科技公司中产生影响的愿望为导向。通过不断迭代和培养“永远第一天”的心态,我们为自己、公司和用户实现有意义的突破。当我们共同创造和成长时,可能性是无限的。加入我们。
多样性与包容性
字节跳动致力于创造一个包容的空间,让员工因其技能、经验和独特的视角而受到重视。我们的平台连接全球各地的人们,我们的工作场所也是如此。在字节跳动,我们的使命是激发创造力,丰富生活。为了实现这一目标,我们致力于庆祝多元化的声音,并创造一个反映我们所接触的众多社区的环境。我们对此充满热情,希望您也是。