• 具有Python的实际经验。具备SQL的丰富知识和工作经验。具备Kafka的工作经验(端到端实施和支持)。
• 具备使用Spark和Spark Streaming的经验(必须使用Python或Scala)。能够集成流数据管道中的不同组件。
• 对AWS(与数据相关的)组件有深入了解,例如AWS Kafka、AWS Airflow、AWS S3、AWS EMR等。
• 能够通过开发发布者和订阅者脚本,设计和开发使用Kafka的流数据管道。
• 能够通过监控CloudWatch和其他AWS日志来解决数据问题并提出修复建议。
• 对不同的大数据文件格式有良好的理解。
• 具有Python的实际经验。
• 具备SQL的丰富知识和工作经验。具备Kafka的工作经验(端到端实施和支持)。
• 具备使用Spark和Spark Streaming的经验(必须使用Python或Scala)。能够集成流数据管道中的不同组件。
• 对AWS(与数据相关的)组件有深入了解,例如AWS Kafka、AWS Airflow、AWS S3、AWS EMR等。
• 能够通过开发发布者和订阅者脚本,设计和开发使用Kafka的流数据管道。
• 能够通过监控CloudWatch和其他AWS日志来解决数据问题并提出修复建议。
• 对不同的大数据文件格式有良好的理解。