角色:数据工程师
我们正在寻找一位熟练的数据工程师来支持我们组织的生成式AI计划。在这个角色中,您将负责设计、实施和维护数据基础设施和管道,以支持大规模生成式AI模型的部署和运行。
主要职责:
- 设计和构建可扩展的数据管道,以摄取、处理和存储大量生成式AI模型的训练数据。使用Spark和Delta Lake实现数据预处理和特征工程工作流,以准备数据用于模型训练和推理。
- 开发和维护数据质量检查和监控系统,以确保数据完整性。
- 使用Delta Lake和Databricks SQL仓库设计和实施高效的数据存储解决方案,以支持AI工作负载。
- 与机器学习工程师和数据科学家合作,优化模型训练和服务的数据流。
- 对敏感训练数据实施数据治理和安全最佳实践。
- 优化数据基础设施,以在生产环境中实现高性能AI模型服务。
- 排除AI管道中的数据相关问题并实施解决方案。
要求:
- 计算机科学、数据科学或相关领域的学士或硕士学位。3年以上数据工程角色经验。
- 精通Python和SQL编程技能。具备Databricks、Apache Spark和Delta Lake经验。
- 熟悉云平台(AWS、GCP或Azure)及其数据服务。了解数据建模、ETL流程和数据管道架构。
- 具备版本控制系统(如Git)和CI/CD实践经验。
- 理解数据隐私和安全考虑。
优先资格:
- 具备在生产环境中支持机器学习或AI项目的经验。
- 熟悉容器化和编排工具,如Docker和Kubernetes。
- 了解流数据技术,如Kafka或Kinesis。
- 具备MLOps实践和工具经验。理解大型语言模型和生成式AI架构。
技能:
- 具备使用Delta Live Tables构建可靠、可维护数据管道的经验。
- 熟悉使用Databricks SQL查询和分析大型数据集。
- 了解Unity Catalog的数据治理和访问控制。
- 具备较强的问题解决和分析能力。
- 优秀的沟通和协作能力。
- 能够在快节奏、动态环境中工作。对AI和数据技术的最新发展充满热情。