职位名称：分布式系统工程师工作地点：新加坡工作类型：全职关于这个机会我们的客户是一家在仿人机器人领域的先锋公司。他们正在寻找一位经验丰富的分布式系统工程师，以设计和扩展支持全球机器人车队运行的基础设施。这是一个定义职业生涯的角色，涉及机器人基础设施的整个堆栈——从低延迟流媒体和云模拟到大规模训练和遥测管道。您将直接与公司的创始人和技术领导合作，设计核心系统，使数百个机器人能够学习、共享数据并作为一个统一的车队运行。主要职责 • 设计和扩展能够在云和边缘环境中处理PB级感知、遥测和控制数据的分布式系统。 • 设计和构建高吞吐量的数据摄取和流媒体管道，将机器人车队实时连接到云（处理视频、LiDAR、关节状态和音频数据）。 • 构建大规模训练和推理平台，为机器人自主和远程操作提供多模态基础模型。 • 与机器学习和机器人工程师密切合作，支持硬件在环（HIL）仿真、策略部署和持续学习系统。 • 开发内部可观测性系统以进行车队监控，确保大规模的可靠性和性能调优。 • 主导关键基础设施决策，从分布式存储和共识协议到GPU编排和网络可靠性。必需资格 • 7年以上专业软件工程经验，具有分布式系统、网络或数据基础设施的深厚专业知识。 • 有构建和操作生产级分布式系统的可证明历史，这些系统能够处理大规模和关键任务的工作负载。 • 精通Go、Rust、C++或Python，具有强大的并发性、网络和系统性能基础。 • 拥有云原生架构和工具的实践经验（例如，Kubernetes、gRPC、Kafka、S3、Ray或类似框架）。 • 对复杂异构环境中的数据一致性、复制和容错有强烈的实际理解。 • 具有分析思维，专注于构建快速、可测量和可靠的系统。 • 强烈加分项：具有基于GPU的工作负载、模型训练或边缘计算编排经验。优先资格（加分项） • 有构建分布式训练或大规模仿真系统的经验。 • 熟悉实时机器人工作负载的独特需求，包括来自物理传感器和执行器的流媒体。 • 在生产环境中有遥测、可观测性或车队规模系统的工作经验。 • 对开源基础设施、AI框架或机器人中间件（例如，ROS、gRPC、Mediasoup）的贡献。如何申请有兴趣的候选人请提交简历，详细说明他们在构建和扩展大规模分布式系统方面的经验。

分布式系统工程师

Second Talent