分布式数据/全栈工程师,数据存储与摄取顾问

圣弗朗西斯科 8天前全职 网络
面议
角色 我们是一个位于旧金山的团队,正在收集非常大的显微镜数据集,我们需要一位专家来设计和实施我们的端到端数据管道,从高速数据摄取到多PB存储和下游处理。您将负责策略(本地 vs. S3 或混合)、材料清单和部署,并且您将亲自参与布线、机架安装、调试和性能验证。 我们当前的仪器以约1+ GB/s的持续速度生成数据(在突发期间更高),随着时间的推移,项目将累积多个PB的数据。您将帮助我们选择和实施合适的架构,考虑可靠性和成本控制。 成果(成功的表现) - 2周内:实施一个可靠摄取我们初始数据流的即时数据处理策略。 - 2周内:交付一个涵盖存储、网络、摄取和持久性的中期数据架构文档。 - 1个月内:在生产中实现中期管道的运营(摄取 → 缓冲 → 长期存储 → 计算访问)。 - 持续:在设置后保持端到端数据处理管道≥95%的正常运行时间。 职责 - 架构摄取和存储:选择并实施一个本地硬件和数据管道设计,或一个具有明确成本和性能权衡的云/S3替代方案,适用于多PB规模。 - 设置一个≥1 GB/s的持续写入摄取路径,具有足够的突发余量(相机/帧到磁盘),包括网络考虑、冷却和节流保护措施。 - 优化占用空间和成本:结合即时压缩/降采样选项,并量化CPU预算与写入速度的权衡;记录何时/何地进行压缩以控制$/PB。 - 集成采集工作流程,确保图像数据和元数据与下游拼接/平场校正管道兼容。 - 启用下游计算:将数据暴露给分割/分析栈(本地GPU节点或云)。 技能 - 5年以上设计和部署高吞吐量存储或HPC管道(≥1 GB/s持续摄取)的生产经验。 - 深入实践:NVMe RAID/条带化,ZFS/MDRAID/纠删码,PCIe拓扑,NUMA固定,Linux性能调优,以及NIC卸载功能。 - 在生产中成功交付多GB/s摄取系统和PB级存储(生命科学、视觉、HPC或媒体)。 - 构建分层存储系统(NVMe → HDD/对象)并验证在持续负载下的实际吞吐量的经验。 - 实用的S3/对象存储知识(AWS S3和/或本地S3兼容系统),包括生命周期、版本控制和成本控制。 - 数据完整性和可靠性:快照、擦洗、复制、纠删码和PB级系统的备份/灾难恢复。 - 网络:****25/40/100 GbE(SFP+/SFP28),RDMA/RoCE/iWARP熟悉;交换机配置和路径调优。 - 能够规范和机架硬件:选择机箱/背板、RAID/HBA卡、NIC和冷却策略,以防止NVMe在持续写入下的节流。 理想技能: - 具有显微镜或科学成像摄取到帧到磁盘速度的经验,包括基于Micro-Manager的管道和原始到容器化格式转换。 - 具有生命科学成像数据经验者优先。 参与细节 - 合同(1099或公司对公司);如果双方合适,可转为正式雇佣。 - 现场要求:在建设和初始运营期间,您必须亲自在旧金山;根据需要进行本地现场工作(例如,UCSF)。 - 薪酬:合同,$100-300/小时 - 时间表:立即开始