角色:数据工程师-SQL、Python、ETL
地点:远程/加拿大
持续时间:6个月以上
职位描述:
所需关键技能:
我们正在寻找在美国/加拿大的高级数据工程候选人。
必须具备SQL、Python和ETL流程的专业知识。同时,还需要具备中级专业知识/工作知识的Scala,因为我们的数据流水线既使用Scala和Hive/Spark SQL编写,又使用Scala编写新的流水线,而旧的流水线则使用SQL(需要持续维护)。
最低要求:
5年以上构建可扩展Spark数据流水线的经验(最好使用Scala)
3-5年以上高级编程语言(如Java、Scala或Python)的经验
精通Spark/MapReduce开发,熟悉数据处理(ETL)技术,能够构建和部署生产级别的ETL流水线
良好的分布式存储和计算(S3、Hive、Spark)的理解
使用ETL框架(如Airflow、Flume、Oozie等)构建和部署生产级别的ETL流水线的经验
展示分析大型数据集以识别差距和不一致性、提供数据见解并推进有效产品解决方案的能力
熟悉关系数据库,并具备在大型数据集上撰写查询(SQL)的专业知识
熟悉Hadoop、Spark、Hive等大数据技术
具备使用Git和Jira(或其他源代码控制和任务管理工具)的经验
良好的沟通技巧,能够与利益相关者进行顺畅的协作