职位名称:分布式系统工程师
工作地点:新加坡
工作类型:全职
关于这个机会
我们的客户是一家在仿人机器人领域的先锋公司。他们正在寻找一位经验丰富的分布式系统工程师,以设计和扩展支持全球机器人车队运行的基础设施。
这是一个定义职业生涯的角色,涉及机器人基础设施的整个堆栈——从低延迟流媒体和云模拟到大规模训练和遥测管道。您将直接与公司的创始人和技术领导合作,设计核心系统,使数百个机器人能够学习、共享数据并作为一个统一的车队运行。
主要职责
• 设计和扩展能够在云和边缘环境中处理PB级感知、遥测和控制数据的分布式系统。
• 设计和构建高吞吐量的数据摄取和流媒体管道,将机器人车队实时连接到云(处理视频、LiDAR、关节状态和音频数据)。
• 构建大规模训练和推理平台,为机器人自主和远程操作提供多模态基础模型。
• 与机器学习和机器人工程师密切合作,支持硬件在环(HIL)仿真、策略部署和持续学习系统。
• 开发内部可观测性系统以进行车队监控,确保大规模的可靠性和性能调优。
• 主导关键基础设施决策,从分布式存储和共识协议到GPU编排和网络可靠性。
必需资格
• 7年以上专业软件工程经验,具有分布式系统、网络或数据基础设施的深厚专业知识。
• 有构建和操作生产级分布式系统的可证明历史,这些系统能够处理大规模和关键任务的工作负载。
• 精通Go、Rust、C++或Python,具有强大的并发性、网络和系统性能基础。
• 拥有云原生架构和工具的实践经验(例如,Kubernetes、gRPC、Kafka、S3、Ray或类似框架)。
• 对复杂异构环境中的数据一致性、复制和容错有强烈的实际理解。
• 具有分析思维,专注于构建快速、可测量和可靠的系统。
• 强烈加分项:具有基于GPU的工作负载、模型训练或边缘计算编排经验。
优先资格(加分项)
• 有构建分布式训练或大规模仿真系统的经验。
• 熟悉实时机器人工作负载的独特需求,包括来自物理传感器和执行器的流媒体。
• 在生产环境中有遥测、可观测性或车队规模系统的工作经验。
• 对开源基础设施、AI框架或机器人中间件(例如,ROS、gRPC、Mediasoup)的贡献。
如何申请
有兴趣的候选人请提交简历,详细说明他们在构建和扩展大规模分布式系统方面的经验。