开发和维护处理和分析大规模数据集的分布式系统。
使用BigData和Cloud技术构建和维护数据处理、工作流定义和系统对系统集成的架构模式。
利用Java、Scala、Python、RDBMS和NoSQL数据库以及基于云的数据仓库服务(如Redshift和Snowflake)进行编程。
设计和实现数据存储解决方案,如Hadoop分布式文件系统(HDFS)或基于云的存储服务,如Amazon S3。
使用工具(如scoop等)从各种来源(如HDFS)建立和维护数据摄取管道,将其加载到数据湖或数据仓库中。
与云数据服务合作,将数据迁移到云原生环境中。
开发和实施数据安全政策和程序,以确保数据的完整性和机密性。
使用Spark、Hadoop或SQL等技术开发和维护数据处理和分析工作流程。
优化数据处理和存储基础设施,以提高性能和可扩展性。
监控和维护数据管道和系统,以确保高可用性和可靠性。
参与敏捷开发过程,包括待办事项整理、编码、代码审查、测试和部署。
与敏捷团队合作,设计、开发、测试、实施和支持全栈开发工具和技术的技术解决方案。
与其他团队成员进行单元测试和审查,确保代码设计、编码和性能调优。
参与需求收集、设计、开发和测试,并将业务需求转化为技术需求。
创建Spark作业,将数据从HDFS/Hive表加载到MongoDB集合中。
使用键和从相应键和文档中获取的值对MongoDB集合执行CRUD操作。
使用Scala创建Spark中的数据帧,并从文件加载数据到数据帧中。
使用Mongo Spark连接器在Spark和MongoDB之间进行集成。
开发脚本,将数据从UNIX文件系统加载到HDFS中。
参与创建Hive表,加载数据并编写Hive查询以从表中查询数据。
将来自不同来源(如HDFS、文件系统、关系数据库)的数据导入Spark RDD以进行进一步转换。
使用Python和pyspark框架从关系数据库(如Oracle、mysql)读取数据。
使用Spark框架应用所有业务逻辑,并将最终数据集推送到Tableau仪表板。
使用NoSQL数据库(键值、列)进行工作,包括数据建模和数据结构。
使用Apache Spark和Apache Airflow构建、维护和增强数据管道。
进行数据分析,以确保提供高质量的数据摄取、标准化和整理,并与适用的数据采集、数据质量和数据治理标准保持一致。
利用Hadoop、NoSQL、内存数据网格、Kafka、Spark等技术开发分析应用程序。
执行其他职责和/或特殊项目,根据分配情况进行操作。