分布式系统工程师

新加坡 9天前全职 网络
面议
职位名称:分布式系统工程师 工作地点:新加坡 工作类型:全职 关于这个机会 我们的客户是一家在仿人机器人领域的先锋公司。他们正在寻找一位经验丰富的分布式系统工程师,以设计和扩展将为全球运营的机器人队列提供动力的基础设施。 这是一个职业定义的角色,涉及整个机器人基础设施的堆栈,从低延迟流和云模拟到大规模训练和遥测管道。您将直接与公司的创始人和技术领导合作,设计核心系统,使数百个机器人能够学习、共享数据并作为一个统一的队列运行。 主要职责 • 设计和扩展能够在云和边缘环境中处理PB级传感、遥测和控制数据的分布式系统。 • 设计和构建高吞吐量的数据摄取和流媒体管道,将机器人队列实时连接到云(处理视频、LiDAR、关节状态和音频数据)。 • 构建大规模训练和推理平台,为机器人自主和远程操作提供多模态基础模型。 • 与机器学习和机器人工程师密切合作,支持硬件在环(HIL)仿真、策略部署和连续学习系统。 • 开发内部可观测性系统,用于队列监控,确保大规模的可靠性和性能调优。 • 领导关键基础设施决策,从分布式存储和共识协议到GPU编排和网络可靠性。 必备资格 • 7年以上专业软件工程经验,具有分布式系统、网络或数据基础设施方面的深厚专业知识。 • 有构建和操作生产级分布式系统的可证明历史,这些系统能够处理大规模和关键任务工作负载。 • 精通Go、Rust、C++或Python,具有强大的并发性、网络和系统性能基础。 • 拥有云原生架构和工具的实际操作经验(例如,Kubernetes、gRPC、Kafka、S3、Ray或类似框架)。 • 对复杂、异构环境中的数据一致性、复制和容错有强烈的实际理解。 • 拥有以构建快速、可测量和可靠系统为重点的分析思维。 • 强烈加分项:具有基于GPU的工作负载、模型训练或边缘计算编排经验。 优先资格(加分项) • 有构建分布式训练或大规模仿真系统的经验。 • 熟悉实时机器人工作负载的独特需求,包括来自物理传感器和执行器的流媒体。 • 在生产环境中有遥测、可观测性或队列规模系统的工作经验。 • 对开源基础设施、AI框架或机器人中间件(例如,ROS、gRPC、Mediasoup)的贡献。