你的职责:
• 在云端、私有数据中心和混合数据生态系统中创建和维护多个强大且高性能的数据处理流水线
• 从各种数据源中组装大型复杂数据集
• 与数据科学家、机器学习工程师、业务分析师和业务用户合作,洞察客户获取、运营效率和其他关键业务绩效指标,并得出可行的见解和可靠的预测
• 开发、部署和维护多个微服务、REST API和报告服务
• 设计和实施内部流程以自动化手动工作流程、优化数据传递和重新设计基础架构以实现更大的可扩展性等
• 建立在设计、分析和排除大规模分布式系统方面的专业知识
你需要具备的能力:
• 构建和操作大规模数据湖和数据仓库的经验
• 熟悉Hadoop生态系统和大数据工具,包括Spark和Kafka
• 了解包括Spark-Streaming在内的流处理系统
• 熟练使用关系型SQL和NoSQL数据库,包括Hive、Hbase和Postgres
• 对SQL有深入理解,并能优化数据查询
• 具备面向对象/函数脚本语言的工作经验:Python、Java、Scala等
• 成功处理、处理和从大型断开的数据集中提取价值的历史记录
• 有应用现代开发原则(Scrum、TDD、持续集成和代码审查)的经验
加分项:
• 有使用Talend Big Data、Apache Nifi等ETL工具的经验
• 有使用Hortonworks Data Platform或Cloudera Data Platform的经验
• 有元数据管理工具的经验
• 了解数据治理流程和工具
• 在动态环境中支持和与跨职能团队合作的能力已得到证明
如果您有兴趣申请这份工作,请点击屏幕右上角的蓝色“申请”按钮。
感谢您对SP集团的关注。如果您入选面试名单,我们将与您联系。