云原生工程师,Ark 大型模型平台

新加坡 16天前全职 网络
面议
字节跳动将优先考虑在新加坡拥有合法工作权利的申请者,并且不需要字节跳动的签证赞助。 字节跳动成立于2012年,使命是激发创造力,丰富生活。我们拥有十多款产品,包括 TikTok、Helo 和 Resso,以及专门面向中国市场的平台,如今日头条、抖音和西瓜视频,字节跳动使人们更容易、更有趣地连接、消费和创造内容。 为什么加入我们 创造是字节跳动的核心使命。我们的产品旨在帮助想象力蓬勃发展。对于实现我们创新的团队来说,这一点尤为真实。 我们共同激发创造力,丰富生活——这是我们每天努力实现的使命。 对我们来说,每一个挑战,无论多么模糊,都是一个机会;学习、创新和作为一个团队成长。现状?从不。勇气?永远。 在字节跳动,我们共同创造,共同成长。这就是我们产生影响的方式——为我们自己、我们的公司和我们服务的用户。 加入我们。 关于团队 应用机器学习(AML)- 企业团队提供基于火山引擎的机器学习平台产品,具有云原生资源调度系统,智能调度不同任务和作业,以最小化每个实验的成本并最大化资源利用率,提供丰富的建模工具,包括自定义机器学习任务和网络 IDE,以及多框架高性能模型推理服务。 2021年,我们通过火山引擎向公众发布了这一机器学习基础设施,以为更多企业提供降低计算能力成本、降低机器学习工程门槛和更深入的人工智能能力开发。 • *职责**: - 维护大规模 AI 集群,开发最先进的机器学习平台,以支持不同利益相关者。 - 处理极具挑战性的任务,包括但不限于,为大型语言模型提供高效的训练和推理,在超过 10,000 个节点和 GPU 芯片的集群中管理极其有效的分布式训练作业,以及构建具有无与伦比可扩展性的高可靠性 ML 系统。 - 工作涉及 LLMOps(大型语言模型操作)的各个方面,如资源调度、任务调度、模型训练、模型推理、模型管理、数据集管理和工作流调度。 - 调查与大型语言模型、人工智能和机器学习相关的前沿技术,如最先进的异构硬件分布式训练系统、GPU 利用率优化和最新的硬件架构。 - 采用多种技术和数学分析方法来提高集群效率和性能。 • *资格**: 最低资格 - 计算机科学或相关领域的学士或更高学位,来自认可和声誉良好的机构,至少有 3 年云计算或大规模模型系统的研发经验。 - 具备 Golang/C++/Cuda 开发经验,深入理解 Linux 系统和流行的云平台,如火山引擎云、AWS 和 Azure 云。 - 深入了解云原生编排技术,如 Kubernetes,并具有大规模集群维护、作业调度优化和集群效率提升的经验。 - 对计算机科学的各种基础领域有深刻理解,包括计算机网络、Linux 文件系统、对象存储服务、SQL 和 NoSQL 数据库。 - 自我驱动,渴望创新,具有协作工作能力,并始终保持高标准的编码和文档质量。 优先资格: - 具备开发 ML 平台或 MLOps 平台的经验。具有分布式机器学习模型训练、ML 模型微调和部署的经验。 字节跳动致力于创造一个包容的空间,让员工因其技能、经验和独特视角而受到重视。我们的平台连接来自全球的人们,我们的工作场所也是如此。在字节跳动,我们的使命是激发创造力,丰富生活。为了实现这一目标,我们致力于庆祝我们多样的声音,创造一个反映我们所接触的多个社区的环境。我们对此充满热情,希望您也是如此。