角色：数据工程师我们正在寻找一位熟练的数据工程师来支持我们组织的生成式AI计划。在这个角色中，您将负责设计、实施和维护数据基础设施和管道，以支持大规模生成式AI模型的部署和运行。主要职责： - 设计和构建可扩展的数据管道，以摄取、处理和存储大量生成式AI模型的训练数据。使用Spark和Delta Lake实现数据预处理和特征工程工作流，以准备数据用于模型训练和推理。 - 开发和维护数据质量检查和监控系统，以确保数据完整性。 - 使用Delta Lake和Databricks SQL仓库设计和实施高效的数据存储解决方案，以支持AI工作负载。 - 与机器学习工程师和数据科学家合作，优化模型训练和服务的数据流。 - 对敏感训练数据实施数据治理和安全最佳实践。 - 优化数据基础设施，以在生产环境中实现高性能AI模型服务。 - 排除AI管道中的数据相关问题并实施解决方案。要求： - 计算机科学、数据科学或相关领域的学士或硕士学位。3年以上数据工程角色经验。 - 精通Python和SQL编程技能。具备Databricks、Apache Spark和Delta Lake经验。 - 熟悉云平台（AWS、GCP或Azure）及其数据服务。了解数据建模、ETL流程和数据管道架构。 - 具备版本控制系统（如Git）和CI/CD实践经验。 - 理解数据隐私和安全考虑。优先资格： - 具备在生产环境中支持机器学习或AI项目的经验。 - 熟悉容器化和编排工具，如Docker和Kubernetes。 - 了解流数据技术，如Kafka或Kinesis。 - 具备MLOps实践和工具经验。理解大型语言模型和生成式AI架构。技能： - 具备使用Delta Live Tables构建可靠、可维护数据管道的经验。 - 熟悉使用Databricks SQL查询和分析大型数据集。 - 了解Unity Catalog的数据治理和访问控制。 - 具备较强的问题解决和分析能力。 - 优秀的沟通和协作能力。 - 能够在快节奏、动态环境中工作。对AI和数据技术的最新发展充满热情。

数据工程师，生成式人工智能

Inizio Partners Corp