职责
字节跳动大模型团队致力于开发行业内最先进的AI大模型技术,成为世界级的研究团队,为技术和社会发展做出贡献。大模型团队在AI领域具有长期愿景和决心,研究方向涵盖NLP、CV、语音等领域。依托平台丰富的数据和计算资源,团队持续在相关领域投入,并推出了自有的通用大模型,提供多模态能力。机器学习(ML)系统子团队结合系统工程和机器学习的艺术,开发和维护全球范围内大规模分布式ML训练和推理系统/服务,为LLM/AIGC/AGI提供高性能、高可靠性、可扩展的系统。
在我们的团队中,您将有机会构建与GPU/NPU/RDMA/存储集成的大规模异构系统,并保持其稳定可靠运行,丰富您的编码、性能分析和分布式系统的专业知识,并参与决策过程。您还将成为由来自美国、中国和新加坡的成员组成的全球团队的一部分,共同协作朝着统一的项目方向努力。
职责
负责确保我们的ML系统在大模型部署、训练、评估和推理方面高效运行
负责多数据中心、多区域和多云场景下离线任务/服务的稳定性
负责资源管理和规划、成本和预算,包括计算和存储资源
负责全球系统灾难恢复、集群机器治理、业务服务稳定性、资源利用率提升和运营效率提升
构建软件工具、产品和系统,以高效监控和管理ML基础设施和服务
成为全球团队名册的一部分,确保系统和业务的随时支持
资格
最低资格
计算机科学、计算机工程或相关领域的学士学位或以上;
熟练掌握至少一种编程语言,如Go/Python/Shell,在Linux环境下;
具有Kubernetes和容器技能的丰富实践经验,并有超过1年的相关运维经验; 优先资格
参与大规模ML分布式系统的运维;
具有GPU服务器运维经验
具备优秀的逻辑分析能力,能够合理抽象和拆分业务逻辑,责任心强,学习能力好,沟通能力强,自驱力强,团队精神好;
具备良好的文档编写原则和习惯,能够按时撰写和更新工作流程和技术文档。
职位信息
关于我们
字节跳动成立于2012年,使命是激发创造力,丰富生活。字节跳动拥有包括TikTok、Lemon8、CapCut和Pico在内的十多个产品,以及面向中国市场的今日头条、抖音和西瓜视频等平台,使人们更容易、更有趣地连接、消费和创造内容。
为什么加入字节跳动
激发创造力是字节跳动使命的核心。我们的创新产品旨在帮助人们真实地表达自己、发现和连接——而我们全球多元化的团队使这一切成为可能。我们共同为我们的社区创造价值,激发创造力,丰富生活——这是我们每天努力的使命。
作为字节跳动的一员,我们努力与优秀的人一起做伟大的事情。我们以好奇心、谦逊和在快速发展的科技公司中产生影响的愿望为引领。通过不断迭代和培养“始终如一”的心态,我们为自己、公司和用户实现有意义的突破。当我们共同创造和成长时,可能性是无限的。加入我们。
多样性与包容性
字节跳动致力于创造一个包容的空间,让员工因其技能、经验和独特的视角而受到重视。我们的平台连接全球各地的人,我们的工作场所也是如此。在字节跳动,我们的使命是激发创造力,丰富生活。为了实现这一目标,我们致力于庆祝我们多样化的声音,并创造一个反映我们所接触到的众多社区的环境。我们对此充满热情,也希望您同样如此。