高级数据工程师

无个税15个月前全职
G42

G42

location 阿布扎比
unsaved
概述 Group 42是总部位于阿布扎比的人工智能(AI)和云计算公司,在国家生态系统中独特地定位于开发和部署全面和可扩展的AI解决方案。G42 Healthcare致力于在阿联酋和更广泛的地区发展世界一流的可持续医疗保健部门。在抗击疫情的前线,G42 Healthcare与阿布扎比当局合作,在14天内建立了一个大规模的高通量实验室,并带头进行了全球首个COVID-19灭活疫苗第三阶段临床试验。除了COVID-19,G42 Healthcare还正在开发一系列活动,以支持未来一代的健康 - 从基因组学、成像和诊断到数字化计划、制造和尖端研究。 我们正在寻找一位经验丰富的数据工程师加入我们的团队,建立一个可扩展和安全的健康数据平台。在这个角色中,您将设计、构建和优化数据管道(批处理和流处理)以处理大数据系统。提取、分析和建模丰富多样的健康数据集。 职责 设计和实现数据管道、ETL流程、模式和数据模型,以摄取、处理和准备多PB级别的数据集,用于下游分析和机器学习。在现代平台(如Spark、Delta Lake、Kafka等)上构建和优化数据处理系统。利用Great Expectations等工具实施数据质量、验证和监控措施。确保符合与PHI和其他敏感数据类型相关的安全性、访问控制和法规要求。支持采用FHIR等新兴标准进行医疗保健数据交换。与数据科学家、分析师和工程师合作,了解数据需求并交付高性能、可靠的数据产品。跟踪数据工程领域的新兴技术和趋势,采用现代工具和最佳实践。 资格 5年以上构建和运营生产大数据平台和管道的经验 熟练掌握SQL、Spark、工作流编排器、分布式消息总线、Python、Presto、Deltalake、Apache大数据工具套件、Docker、Kubernetes、MPP 具备使用AWS、Azure或GCP等平台实施和维护基于云的数据解决方案的设计和实施经验,优化可扩展性、成本效益和性能 实施和维护数据湖和数据仓库,包括数据建模、ETL流程和数据质量保证,以支持数据驱动的决策 使用流式技术(如Apache Kafka或AWS Event Hub)开发实时数据管道,实现及时的洞察和行动 管理和增强分布式数据系统(如Hadoop、Spark),以高效处理大规模数据集,确保数据的可用性和可靠性 有在健康数据和Azure云上工作的经验是一个强大的优势 具有设计和实施可扩展数据模型、模式、ETL逻辑的成功记录 具备数据治理、主数据管理、数据伪装和匿名化以及数据目录解决方案的经验 对学习新事物有浓厚兴趣,具备团队合作精神 具备较强的分析能力和对数据结构和算法的良好理解 额外要求: 具备构建机器学习数据管道的经验 了解基因组学、医学成像和/或电子病历数据领域 了解HIPAA、HL7和其他医疗保健数据隐私要求 具备使用完全托管的数据仓库解决方案Azure Synapse、AWS Redshift、BigQuery、Snowflake等的实际经验