数据工程团队负责设计、构建和维护数据湖基础设施,包括数据摄取管道、存储系统和内部工具,以实现对市场数据的可靠、可扩展的访问。
主要职责:
• 数据摄取与管道:为多种结构化和非结构化市场数据架构批处理和流处理管道(Airflow、Kafka、dbt)。为内部数据生产者提供可重用的SDK(Python和Go)。
• 存储与建模:实现和调整S3列式和时间序列数据存储,以支持PB级分析;负责分区、压缩、TTL、版本控制和成本优化。
• 工具与库:开发内部库以进行模式管理、数据合同验证和数据血缘追踪;为内部数据消费者提供共享库和服务,支持研究、回测和实时交易。
• 可靠性与可观察性:嵌入监控、警报、服务水平协议(SLA)、服务水平目标(SLO)和持续集成/持续交付(CI/CD);倡导自动化测试、数据质量仪表板和事件处理手册。
• 合作:与数据科学、量化研究、后端和DevOps团队合作,将需求转化为平台能力,并推广最佳实践。
资格要求:
• 6年构建和维护生产级数据系统的经验,具备从零开始架构和启动数据湖的专业知识。
• 精通Python开发技能(Go和C语言为加分项)。
• 具备现代编排工具(Airflow)和流处理平台(Kafka)的实际经验。
• 高级SQL技能,包括复杂聚合、窗口函数、查询优化和索引。
• 具备设计高吞吐量API(REST/gRPC)和数据访问库的经验。
• 扎实的Linux容器化(Docker)和云对象存储解决方案(AWS S3、GCS)基础。
• 具备处理多种数据格式(包括结构化和非结构化数据)的强大知识,并有优化存储策略(如分区、压缩和成本管理)的经验。
• 英语达到C1水平——能够自信地进行沟通、文档编写和与国际团队的合作。
附加信息:
• 我们支持全球远程工作,工作时间灵活。
• 我们提供健康保险、体育活动和专业培训的补偿。