关于Aldea
Aldea是一家多模态基础AI公司,重新构想智能的扩展法则。我们相信当今的架构为软件的演变创造了不必要的瓶颈。我们的使命是构建下一代基础模型,以推动更具表现力、上下文和智能的人机界面。
职位介绍
我们正在招聘一名研究工程师(机器学习),以构建支持Aldea多模态AI研究的基础设施。您将设计、优化和扩展训练和推理系统,使我们的研究团队能够探索跨语言、语音和多模态领域的下一代架构。
这是一个高杠杆作用的职位,您的工作将直接推动突破性研究。您将构建支持亿级参数规模快速实验和语音及语言模型实时部署的生产级系统。如果您对构建加速AI研究的系统充满热情,这个职位非常适合您。
您的工作内容
• 构建和维护分布式训练基础设施,支持跨语言和语音领域的研究人员,达到亿级以上参数规模。
• 优化整个堆栈的训练和推理性能,通过框架优化、自定义内核和系统级改进实现显著的加速。
• 设计实验基础设施,包括自动化评估管道、实验跟踪和监控系统,以实现快速迭代。
• 将基础设施从单节点扩展到多节点分布式训练,并为实时应用部署生产推理系统。
• 快速解决基础设施问题,支持研究人员,并保持所有系统的高可靠性。
• 与研究科学家、数据工程师和领导层合作,定义技术优先级和基础设施路线图。
最低资格
• 计算机科学、工程或相关领域的学士学位,或同等的实际经验。
• 3年以上使用PyTorch和分布式训练框架(DDP、FSDP、DeepSpeed或类似)的经验。
• 在1B+参数规模训练大规模深度学习模型的经验。
• 深刻理解训练优化技术,包括混合精度、梯度检查点和内存管理。
• 具备构建高可靠性生产级ML基础设施的能力。
• 在ML训练或推理系统中实现显著性能优化的成功记录。
优先资格
• 具有自定义内核开发(CUDA、Triton)或GPU优化经验。
• 拥有大规模预训练(100B+ tokens,理想情况下达到万亿级规模)的实际经验。
• 优化生产推理的经验:量化、vLLM、TensorRT或自定义服务引擎。
• 熟悉语音/音频ML系统和实时推理限制。
• 具有构建自动化评估框架和实验跟踪系统的经验。
• 了解分析工具和跨8-32+ GPU的多节点训练。
• 接触过作业编排系统(SLURM、Kubernetes、Ray)。
• 拥有计算机科学、机器学习或相关领域的硕士或博士学位。
薪酬与福利
• 具有竞争力的基本工资
• 与研究和模型里程碑挂钩的绩效奖金
• 股权参与
• 综合健康、牙科和视力保险
• 灵活的带薪休假
Aldea自豪地成为一个机会均等的雇主。我们致力于建立一个多元化和包容性的文化,庆祝真实,以团结一致取得胜利。我们不因种族、宗教、肤色、国籍、性别、性别认同、性取向、年龄、婚姻状况、残疾、受保护的退伍军人身份、公民或移民身份或任何其他法律保护的特征而歧视。
Aldea使用E-Verify来确认就业资格,以符合联邦法律。欲了解更多信息,请访问:https://www.e-verify.gov。
请注意:我们不接受招聘人员或就业机构的未经请求的简历,并且不对与未经请求的简历相关的任何费用负责。