高级大数据工程师

16个月前远程全职
The Goodkind Group

The Goodkind Group

location 芝加哥
unsaved
职位名称:大数据工程师 地点:亚特兰大30308 _(混合型,每周2天现场/100%远程) 持续时间:12个月可延长合同 工作摘要 作为一名大数据工程师,您将负责设计、构建和优化大数据管道。您将与数据科学家和其他利益相关者密切合作,支持组织的数据需求。 职责 • 使用Apache Kafka和Spark Streaming设计和实现高速、高容量的数据流解决方案。 • 使用Spark Structured Streaming和Kafka开发实时数据处理和流式处理技术。 • 为实现最佳性能,对Spark应用程序进行故障排除和优化。 • 与Python和/或Scala密切合作,进行数据处理任务(PySpark/Scala-Spark)。 • 利用Databricks进行基于云的大数据解决方案。 • 构建、测试和优化大数据摄取管道、架构和数据集。 • 在Azure或AWS上部署数据平台,并管理S3、Kinesis/MSK、Lambda和Glue等无服务器技术。 • 操作消息平台,如Kafka、Amazon MSK、TIBCO EMS或IBM MQ Series,进行异步数据通信。 • 管理Databricks笔记本,使用Python和Spark SQL处理Delta Lake,并管理Delta Live Tables和Unity Catalog。 • 从JSON、XML和CSV等各种格式摄取数据。 • 使用HBASE和/或Cassandra等NoSQL数据库。 • 在Unix/Linux平台上执行Shell脚本和其他任务。 • 使用Kudu/Impala或Delta Lake等其他数据库解决方案。 资格要求 - 必备条件 • 必须具备高速、高容量流处理的实际经验:Apache Kafka和Spark Streaming。 • 具备使用Spark结构化流和Kafka的实时数据处理和流式处理技术的经验。 • 深入了解故障排除和调优Spark应用程序的知识。 • 必须具备Python和/或Scala(PySpark/Scala-Spark)的实际经验。 • 必须具备Databricks的经验。 • 必须具备构建、测试和优化大数据摄取管道、架构和数据集的实际经验。 • 在Azure/AWS上成功构建和部署新的数据平台的经验。 • 在Azure/AWS无服务器技术方面的经验,如S3、Kinesis/MSK、Lambda和Glue。 • 对Kafka、Amazon MSK和TIBCO EMS或IBM MQ Series等消息平台有深入了解。 • 有使用Databricks UI、管理Databricks笔记本、使用Python进行Delta Lake、使用Spark SQL进行Delta Lake、Delta Live Tables和Unity Catalog的经验。 • 具备处理不同文件格式(如JSON、XML、CSV)的数据摄取经验。 • 具备包括HBASE和/或Cassandra在内的NoSQL数据库的知识。 • 必须具备Unix/Linux平台和Shell脚本的经验。 • 具备使用Kudu/Impala或Delta Lake等数据库解决方案的经验。 工作类型:全职 福利: • 401(k)计划 • 牙科保险 • 医疗保险 • 视力保险 工作时间: • 8小时班次 • 日班 • 周一至周五 经验: • AWS:10年(必需) • SQL:10年(首选) • Databricks:10年(必需) • Python:10年(必需) • Spark:10年(必需) • pyspark:10年(必需) 工作地点:远程