主要职责:
• 设计和管理端到端的数据处理管道,用于高容量的 AI/ML 训练和评估任务。
• 构建和完善自动化 ETL 工作流和多模态数据集(文本、图像、结构化)的数据质量框架。
• 领导高级数据注释和增强工作,包括基于 OCR 的管道和 LLM 数据准备。
• 实施数据验证、标准化和清洗协议,以处理多样化和非结构化的数据源。
• 与 AI 团队合作,以支持特征工程、提示数据设计和模型评估数据集。
• 使用 Spark、Hive、Kafka 和容器化平台优化和监督数据基础设施。
要求:
• 至少 12 年的数据分析、数据工程或 AI/ML 数据操作经验。
• 在 Python、SQL 和大数据框架(Spark、Hive、Hadoop)方面具有专业知识。
• 精通 OCR 技术(如 PaddleOCR、OpenCV)和数据标注工具(Label Studio、Prodigy)。
• 对云环境(AWS、京东云、Azure)和容器化系统(Docker、Kubernetes)有深入理解。
• 具有管理 AI/ML 数据管道和大规模训练数据集的经验至关重要。
• 优先考虑 PMP 认证。