数据工程师,生成式人工智能

纽约 3天前全职 网络
面议
角色:数据工程师 我们正在寻找一位熟练的数据工程师来支持我们组织的生成式AI计划。在这个角色中,您将负责设计、实施和维护数据基础设施和管道,以支持大规模生成式AI模型的部署和运行。 主要职责: - 设计和构建可扩展的数据管道,以摄取、处理和存储大量生成式AI模型的训练数据。使用Spark和Delta Lake实现数据预处理和特征工程工作流,以准备数据用于模型训练和推理。 - 开发和维护数据质量检查和监控系统,以确保数据完整性。 - 使用Delta Lake和Databricks SQL仓库设计和实施高效的数据存储解决方案,以支持AI工作负载。 - 与机器学习工程师和数据科学家合作,优化模型训练和服务的数据流。 - 对敏感训练数据实施数据治理和安全最佳实践。 - 优化数据基础设施,以在生产环境中实现高性能AI模型服务。 - 排除AI管道中的数据相关问题并实施解决方案。 要求: - 计算机科学、数据科学或相关领域的学士或硕士学位。3年以上数据工程角色经验。 - 精通Python和SQL编程技能。具备Databricks、Apache Spark和Delta Lake经验。 - 熟悉云平台(AWS、GCP或Azure)及其数据服务。了解数据建模、ETL流程和数据管道架构。 - 具备版本控制系统(如Git)和CI/CD实践经验。 - 理解数据隐私和安全考虑。 优先资格: - 具备在生产环境中支持机器学习或AI项目的经验。 - 熟悉容器化和编排工具,如Docker和Kubernetes。 - 了解流数据技术,如Kafka或Kinesis。 - 具备MLOps实践和工具经验。理解大型语言模型和生成式AI架构。 技能: - 具备使用Delta Live Tables构建可靠、可维护数据管道的经验。 - 熟悉使用Databricks SQL查询和分析大型数据集。 - 了解Unity Catalog的数据治理和访问控制。 - 具备较强的问题解决和分析能力。 - 优秀的沟通和协作能力。 - 能够在快节奏、动态环境中工作。对AI和数据技术的最新发展充满热情。