• 使用Spark和Scala设计、开发和维护可扩展的数据管道,以处理、转换和分析大量数据。
• 与跨职能团队合作,了解数据需求并实施满足业务需求的解决方案。
• 优化和调整现有的数据管道,以提高性能、可靠性和可扩展性。
• 通过验证、测试和故障排除数据流程,确保数据质量和完整性。
• 保持对大数据和分布式计算领域的行业最佳实践和新兴技术的更新。
• 计算机科学、工程或相关领域的学士/硕士学位。
• 具有Spark和Scala专业知识的数据工程师的经验证明。
• 熟练构建和优化大数据管道和工作流程。
• 具有分布式计算框架(Spark、Hadoop等)和相关工具的实际经验。
• 对数据库技术(SQL、NoSQL)和数据仓库概念有扎实的理解。
• 出色的问题解决能力,积极主动地学习和适应新技术的态度。