大数据软件工程师 - MG CLOUD TECHNOLOGIES LLC招聘

开发和维护处理和分析大规模数据集的分布式系统。使用BigData和Cloud技术构建和维护数据处理、工作流定义和系统对系统集成的架构模式。利用Java、Scala、Python、RDBMS和NoSQL数据库以及基于云的数据仓库服务（如Redshift和Snowflake）进行编程。设计和实现数据存储解决方案，如Hadoop分布式文件系统（HDFS）或基于云的存储服务，如Amazon S3。使用工具（如scoop等）从各种来源（如HDFS）建立和维护数据摄取管道，将其加载到数据湖或数据仓库中。与云数据服务合作，将数据迁移到云原生环境中。开发和实施数据安全政策和程序，以确保数据的完整性和机密性。使用Spark、Hadoop或SQL等技术开发和维护数据处理和分析工作流程。优化数据处理和存储基础设施，以提高性能和可扩展性。监控和维护数据管道和系统，以确保高可用性和可靠性。参与敏捷开发过程，包括待办事项整理、编码、代码审查、测试和部署。与敏捷团队合作，设计、开发、测试、实施和支持全栈开发工具和技术的技术解决方案。与其他团队成员进行单元测试和审查，确保代码设计、编码和性能调优。参与需求收集、设计、开发和测试，并将业务需求转化为技术需求。创建Spark作业，将数据从HDFS/Hive表加载到MongoDB集合中。使用键和从相应键和文档中获取的值对MongoDB集合执行CRUD操作。使用Scala创建Spark中的数据帧，并从文件加载数据到数据帧中。使用Mongo Spark连接器在Spark和MongoDB之间进行集成。开发脚本，将数据从UNIX文件系统加载到HDFS中。参与创建Hive表，加载数据并编写Hive查询以从表中查询数据。将来自不同来源（如HDFS、文件系统、关系数据库）的数据导入Spark RDD以进行进一步转换。使用Python和pyspark框架从关系数据库（如Oracle、mysql）读取数据。使用Spark框架应用所有业务逻辑，并将最终数据集推送到Tableau仪表板。使用NoSQL数据库（键值、列）进行工作，包括数据建模和数据结构。使用Apache Spark和Apache Airflow构建、维护和增强数据管道。进行数据分析，以确保提供高质量的数据摄取、标准化和整理，并与适用的数据采集、数据质量和数据治理标准保持一致。利用Hadoop、NoSQL、内存数据网格、Kafka、Spark等技术开发分析应用程序。执行其他职责和/或特殊项目，根据分配情况进行操作。