人工智能数据工程师

洛杉矶 4天前全职 网络
面议
职位概述 数据工程师将在为我们的LLM和机器学习模型开发和优化数据方面发挥关键作用。此人将负责整个数据生命周期,包括收集、清理、构建和优化大型、多样化的医疗数据集。理想的候选人应具备扎实的数据工程原理背景,拥有大数据技术经验,并对医疗数据的独特挑战和要求有深刻理解。 您将设计、构建和维护可扩展的数据管道,以获取、预处理并向我们的机器学习工程师提供高质量、大量的数据集。此角色需要对数据工程最佳实践有深刻理解,并具备LLM训练和优化的数据需求的特定知识。 主要职责 • 与数据科学家和机器学习工程师合作,了解LLM和机器学习模型微调的数据需求。 • 设计、构建和维护可扩展的数据管道,以获取、处理和存储庞大且多样化的医疗数据集。 • 实施强大的数据验证和监控,以确保所有训练数据集的完整性、准确性和一致性。 • 实施强大的数据清理、验证和转换流程,以确保数据质量和完整性。 • 开发和优化数据结构和模式,以便LLM和机器学习模型高效访问和利用。 • 与团队合作识别和获取新的数据源,确保遵守相关医疗法规(例如,HIPAA)。 • 监控数据管道性能,排除问题并实施优化以提高效率和可靠性。 • 记录数据工程流程、数据模型和数据字典。 • 了解数据工程、大数据技术和机器学习的最新进展。 要求 必需 • 计算机科学、工程或相关领域的学士学位。 • 作为数据工程师的丰富经验,专注于大数据技术。 • 精通Python、Scala或Java等编程语言。 • 在数据仓库、ETL流程和数据建模方面有丰富经验。 • 有主要云服务提供商(例如,AWS、GCP、Azure)及其数据存储和处理服务的经验。 • 拥有使用Apache Spark等大数据框架进行分布式处理的实践经验。 • 优秀的问题解决能力,能够独立工作并作为团队的一员。 • 良好的沟通和人际交往能力。 优先 • 相关领域的硕士学位。 • 有医疗数据经验,并对医疗数据标准(例如,FHIR、HL7)有良好理解。 • 熟悉机器学习概念和LLM微调流程。 • 有数据编排工具(例如,Apache Airflow)的经验。 工作授权: • 必须是美国公民、绿卡持有者,或目前在美国拥有有效的H1B签证 福利 为什么加入我们? 加入C the Signs不仅仅是构建AI;这是在塑造医疗的未来。如果您是一位技术领导者,坚定地相信AI拯救生命的力量,并有能力大规模实现这一目标,这是您创造切实、全球影响的机会。 福利: • 具有竞争力的薪资和福利套餐。 • 灵活的工作安排(可选择远程或混合办公)。 • 有机会从事直接影响患者结果的改变生活的AI技术。 • 加入一个将尖端创新与拯救生命和改善健康公平的使命结合在一起的团队。 • 持续学习机会,获取AI和医疗领域的最新工具和进展。