数据架构主任职位概述
该角色负责在亚马逊网络服务(AWS)上开发可扩展、安全和高性能的数据平台,重点关注医疗数据、数据湖策略和人工智能的实现。
• 关键职责:
• 战略数据平台领导
成功的候选人将定义并实施企业范围内的数据架构策略,以支持互操作性、人工智能/机器学习的准备和合规性。
云数据湖与存储优化
这涉及使用亚马逊S3、AWS Glue、Athena、Redshift和Lake Formation设计和维护可扩展、安全且具有成本效益的数据湖。
利用Mountpoint for S3实现对S3对象的高性能、POSIX兼容访问,包括矢量化数据文件。
优化数据存储和检索策略,以提高性能和成本效率,包括分区、文件格式(如Parquet、ORC)和压缩技术。
• 人工智能/机器学习的实现与矢量基础设施
与数据科学团队合作,实现嵌入模型、矢量化管道和实时推断架构。
设计和管理矢量存储系统(如基于S3的、FAISS、Pinecone或亚马逊OpenSearch),以支持语义搜索、检索增强生成(RAG)和智能数据访问。
确保矢量化数据管道与模型训练、评估和部署策略保持一致。
• 医疗数据架构与互操作性
架构系统以接收、处理和存储来自电子健康记录(EHR)、API和HL7源的符合FHIR标准的JSON数据。
确保符合医疗互操作性标准,并优化查询能力和下游分析。
实施数据规范化和丰富管道,以用于临床和操作上下文。
• 安全、合规与治理
领导确保数据在静态和传输中安全的工作,使用AWS原生加密、IAM、VPC控制和存储桶策略。
实施和管理数据访问控制、审计日志和基于角色的安全模型,覆盖AWS环境。
监督数据治理,包括数据源追溯、目录和管理,使用工具如AWS Glue数据目录、Lake Formation或第三方平台。
• 团队领导与跨职能协作
建立并领导一支高效能的数据架构师和工程师团队。
与工程、数据科学、产品和合规团队的利益相关者密切合作,以交付数据项目。
促进数据素养,培养创新和持续改进的文化。
资格要求:
• 计算机科学、数据工程或相关领域的学士或硕士学位。
• 8–12年以上数据架构经验,其中3–5年担任技术领导角色。
• 在AWS基础上架构数据湖和分析管道的丰富经验。
• 深刻理解医疗数据标准(FHIR、HL7),并在大规模系统中处理FHIR JSON对象的经验。
• 在嵌入和矢量化模型、语义搜索以及管理矢量存储解决方案方面的专业知识。
• 在亚马逊S3、Mountpoint for S3的实际操作经验,以及优化基于S3的工作负载以提高性能和降低成本的能力。
• 在数据安全、加密、访问控制和合规框架(HIPAA、HITRUST)方面的强大背景。
• 优先资格:AWS认证(例如,AWS认证大数据或数据分析-专业)。
• 熟悉开源矢量数据库(例如,FAISS、Weaviate)和MLOps管道。
• 在临床系统集成、索赔处理或人口健康分析方面的经验。