- 设计、开发和维护可扩展、可靠、安全的数据流水线,使用PySpark和基于云的数据库处理大量结构化和非结构化医疗数据。
- 与数据架构师、数据科学家和分析师合作,了解数据需求并实施满足业务和技术目标的解决方案。
- 利用AWS或Azure云服务进行数据存储、处理和分析,优化成本和性能。
- 利用Airflow等工作流管理工具和Kubernetes等容器编排系统,确保数据处理应用的无缝部署、扩展和管理。
- 开发和实施数据摄取、转换和验证流程,确保各种医疗数据集的数据质量、一致性和可靠性。
- 监控和排除数据流水线问题,主动识别和解决问题,以最小化停机时间并确保最佳性能。
- 建立和执行数据工程最佳实践,确保符合医疗行业特定的数据隐私和安全法规。
- 持续评估和采用新的工具、技术和框架,改进数据基础设施并推动创新。
- 指导和引导初级数据工程师,营造团队合作、学习和成长的文化。
- 与跨职能团队合作,将数据工程工作与组织整体目标和战略对齐。
- 熟悉SOC 2合规性及其对公司政策和流程的影响。
- 理解遵守SOC 2要求的重要性,并努力做到。
要求:
- 计算机科学、工程或相关领域的学士或硕士学位。
- 3年以上数据工程经验,对Apache Spark和Snowflake等基于云的数据库有很好的背景。
- 精通大数据技术、PySpark,熟练掌握一种或多种编程语言,如Python。
- 在AWS或Azure云服务方面具有数据存储、处理和分析的经验。
- 熟练使用Airflow等工作流管理工具和Kubernetes等容器编排系统。
- 熟悉SQL和NoSQL数据库,以及数据建模和模式设计原则。
- 熟悉医疗数据标准、术语和法规,如HIPAA和GDPR,具有很高的可取性。
- 出色的问题解决、沟通和协作能力,能够在跨职能团队中有效工作。
- 在快节奏的环境中展示管理多个项目、优先处理任务和满足截止日期的能力。
- 强烈的学习、适应和贡献于快速发展的数据领域的愿望。