职位名称:分布式系统工程师
工作地点:新加坡
工作类型:全职
关于这个机会
我们的客户是一家在仿人机器人领域的先锋公司。他们正在寻找一位经验丰富的分布式系统工程师,以设计和扩展将为全球机器人车队提供动力的基础设施。
这是一个职业定义的角色,涉及机器人基础设施的整个堆栈,从低延迟流媒体和云模拟到大规模训练和遥测管道。您将直接与公司的创始人和技术领导合作,设计核心系统,使数百个机器人能够学习、共享数据,并作为一个统一的车队运行。
主要职责
- 架构和扩展能够在云端和边缘环境中处理PB级感知、遥测和控制数据的分布式系统。
- 设计和构建高吞吐量的数据摄取和流媒体管道,将机器人车队实时连接到云端(处理视频、LiDAR、关节状态和音频数据)。
- 构建大规模训练和推理平台,为机器人自主和远程操作提供多模态基础模型。
- 与机器学习和机器人工程师密切合作,支持硬件在环(HIL)仿真、策略部署和持续学习系统。
- 开发内部可观测性系统以进行车队监控,确保大规模的可靠性和性能调优。
- 主导关键基础设施决策,从分布式存储和共识协议到GPU编排和网络可靠性。
必需资格
- 7年以上专业软件工程经验,在分布式系统、网络或数据基础设施方面有深厚且经过验证的专业知识。
- 有构建和操作生产级分布式系统的可证明历史,这些系统能够处理大规模和关键任务工作负载。
- 精通Go、Rust、C++或Python,具备强大的并发性、网络和系统性能基础。
- 拥有云原生架构和工具的实践经验(例如,Kubernetes、gRPC、Kafka、S3、Ray或类似框架)。
- 对复杂异构环境中的数据一致性、复制和容错有强烈的实际理解。
- 具有分析思维,专注于构建快速、可测量和可靠的系统。
- 强烈加分项:具有基于GPU的工作负载、模型训练或边缘计算编排经验。
优先资格(加分项)
- 有构建分布式训练或大规模仿真系统的经验。
- 熟悉实时机器人工作负载的独特需求,包括从物理传感器和执行器的流媒体。
- 在生产环境中有遥测、可观测性或车队规模系统的工作经验。
- 对开源基础设施、AI框架或机器人中间件(例如,ROS、gRPC、Mediasoup)的贡献。