我们急需一名Spark Scala开发人员为我们位于迪拜的客户服务。
技术栈:
Scala, Apache Spark(结构化流处理), Kafka, MQTT, MongoDB, Redis, PostgreSQL, Docker/Kubernetes
主要职责:
- 设计、开发和维护使用Apache Spark和Scala的可扩展数据处理应用程序
- 处理大型数据集以提取洞察并构建数据管道
- 与数据科学家和分析师合作,理解需求并提供数据驱动的解决方案
- 优化Spark作业以提高性能、可扩展性和可靠性
- 排查和解决Spark应用程序的问题
- 使用Spark、Scala和其他相关技术开发和维护数据处理工作流
要求:
- 拥有Apache Spark和Scala编程的丰富经验
- 精通Spark Core、Spark SQL和Spark Streaming
- 具备数据处理、数据仓库和数据分析的经验
- 深刻理解数据结构、算法和软件设计模式
- 优秀的问题解决能力和对细节的关注
- 能够处理大型数据集和分布式系统
加分项:
- 具备Hadoop、Hive和其他大数据技术的经验
- 熟悉云平台(例如,AWS、Azure、GCP)
- 了解数据可视化工具(例如,Tableau、Power BI)
- 具备敏捷开发方法论和版本控制系统(例如,Git)的经验
技能:
- 编程语言:Scala, Java, Python
- 大数据技术:Apache Spark, Hadoop, Hive
- 数据处理:数据管道、数据仓库、数据分析
- 数据结构:RDDs, DataFrames, Datasets
- 性能优化:Spark作业优化、性能调优