技能描述
• Hadoop
• Spark,Hive
• Python和PySpark
• ETL工具
• Teradata
• Unix
• Oracle / SQL Server / MySQL
• AWS,Snowflake
• 构建数据流水线的经验
• 在Hadoop / Teradata平台上使用Spark,TCF和各种ETL框架
• 熟练掌握Java或Python的脚本知识
• 能够阅读和解释数据算法
• 利用大数据技术解决客户最困难的数据问题。
• 与解决方案设计师和业务分析师密切合作,执行数据摄取、丰富和外导操作
• 在集团数据仓库、大数据平台、Ab Initio和Data Stage之间工作。
• 通过整合来自数百个内部和外部来源的多样化数据来设计和构建集团数据产品
• 采用工具、编程语言和模板来提高我们的数据质量和效率
• 构建和优化大数据流水线、架构和数据集
• 对业务需求、设计和代码审查负有全面的责任和所有权,识别技术/性能问题并解决它们。
• 学习和适应新技术以解决问题和改进现有解决方案
• 在团队内指导和支持初级数据工程师