职位名称:大数据工程师
地点:亚特兰大30308 _(混合型,每周2天现场/100%远程)
持续时间:12个月可延长合同
工作摘要
作为一名大数据工程师,您将负责设计、构建和优化大数据管道。您将与数据科学家和其他利益相关者密切合作,支持组织的数据需求。
职责
• 使用Apache Kafka和Spark Streaming设计和实现高速、高容量的数据流解决方案。
• 使用Spark Structured Streaming和Kafka开发实时数据处理和流式处理技术。
• 为实现最佳性能,对Spark应用程序进行故障排除和优化。
• 与Python和/或Scala密切合作,进行数据处理任务(PySpark/Scala-Spark)。
• 利用Databricks进行基于云的大数据解决方案。
• 构建、测试和优化大数据摄取管道、架构和数据集。
• 在Azure或AWS上部署数据平台,并管理S3、Kinesis/MSK、Lambda和Glue等无服务器技术。
• 操作消息平台,如Kafka、Amazon MSK、TIBCO EMS或IBM MQ Series,进行异步数据通信。
• 管理Databricks笔记本,使用Python和Spark SQL处理Delta Lake,并管理Delta Live Tables和Unity Catalog。
• 从JSON、XML和CSV等各种格式摄取数据。
• 使用HBASE和/或Cassandra等NoSQL数据库。
• 在Unix/Linux平台上执行Shell脚本和其他任务。
• 使用Kudu/Impala或Delta Lake等其他数据库解决方案。
资格要求 - 必备条件
• 必须具备高速、高容量流处理的实际经验:Apache Kafka和Spark Streaming。
• 具备使用Spark结构化流和Kafka的实时数据处理和流式处理技术的经验。
• 深入了解故障排除和调优Spark应用程序的知识。
• 必须具备Python和/或Scala(PySpark/Scala-Spark)的实际经验。
• 必须具备Databricks的经验。
• 必须具备构建、测试和优化大数据摄取管道、架构和数据集的实际经验。
• 在Azure/AWS上成功构建和部署新的数据平台的经验。
• 在Azure/AWS无服务器技术方面的经验,如S3、Kinesis/MSK、Lambda和Glue。
• 对Kafka、Amazon MSK和TIBCO EMS或IBM MQ Series等消息平台有深入了解。
• 有使用Databricks UI、管理Databricks笔记本、使用Python进行Delta Lake、使用Spark SQL进行Delta Lake、Delta Live Tables和Unity Catalog的经验。
• 具备处理不同文件格式(如JSON、XML、CSV)的数据摄取经验。
• 具备包括HBASE和/或Cassandra在内的NoSQL数据库的知识。
• 必须具备Unix/Linux平台和Shell脚本的经验。
• 具备使用Kudu/Impala或Delta Lake等数据库解决方案的经验。
工作类型:全职
福利:
• 401(k)计划
• 牙科保险
• 医疗保险
• 视力保险
工作时间:
• 8小时班次
• 日班
• 周一至周五
经验:
• AWS:10年(必需)
• SQL:10年(首选)
• Databricks:10年(必需)
• Python:10年(必需)
• Spark:10年(必需)
• pyspark:10年(必需)
工作地点:远程