AML机器学习存储架构工程师-北京

15个月前全职
Byte Dance

Byte Dance

location 香港
unsaved
职责 1. 统一性/架构设计权衡:如何构建一个统一的中间层系统,能够同时支持不同场景下多个业务的需求(低成本/高可用性/高吞吐量/高性能/大空间)。 2. 多级/分层存储的架构复杂性:不仅限于视频内存/内存/外部存储。 3. 跟进尖端软件/硬件架构的演进和尝试。 4. 作为站点的中间平台,多代/多机房/多包装/不同规划和利用优化大规模库存资源感知模型规模/服务流量后的自动/动态调优问题。 5. 优化多个子系统的多个目标:训练部分的功能性、可用性和容错性;服务部分的成本、容量和性能;系统同步部分的数据一致性、有效性和带宽容量。 6. 对某些指标/存储结构的持续追求完美:如对无锁/渐进式数据结构的无限追求。 7. 对CAP定理的不断挑战和追求。 资格要求 1. 熟练使用C++/Python编程语言在Linux环境下。 2. 掌握分布式系统的原理,并参与大规模分布式系统的设计、开发、维护和持续优化,并能够识别大型复杂分布式系统中的潜在问题。 3. 参与过推荐/搜索/机器学习等分布式系统工作,涉及资源调度和任务编排、模型训练、模型推理、特征提取、MLsys、AiOps等。 4. 具备优秀的逻辑分析能力,能够合理抽象和拆分业务逻辑,并具有良好的团队合作精神。 5. 具备较强的工作责任感、良好的学习能力、沟通能力、自我激励能力和执行能力。 6. 具备良好的工作文档习惯,并能按时编写和更新工作流程和技术文档。加分项: 1. 参与过类似ParameterServer的系统优化,或者搜索系统的索引结构优化。 2. 熟悉Redis、LevelDB/RocksDB、Mongo等开源存储项目,或者在HDFS和Ceph等大规模分布式存储系统方面有优化经验。 3. 熟悉主流机器学习框架(TensorFlow/PyTorch/MXNet)。 4. 在以下领域之一具有经验:AI基础设施、HW/SW协同设计、高性能计算、ML硬件架构(GPU、加速器、网络)、机器学习框架、系统级机器学习、分布式存储。 5. 对Linux内核和操作系统有深入的了解和追踪能力。 6. 具有ACM/OI竞赛背景。