人工智能数据工程师

阿布扎比 无个税3天前全职 网络
面议
职位描述 使用 Python 构建结构化/非结构化数据的摄取管道。 清理、规范化并准备适合 LLM 微调的数据格式(例如,JSONL、CSV)。 创建高质量、特定任务的数据集用于训练和评估。 使用 DVC 或 LakeFS 对数据集进行版本控制以实现可重复性。 使用 HuggingFace 或 Sentence Transformers 生成嵌入。 管理向量索引(FAISS、Weaviate)并优化检索工作流程。 对长格式数据进行分词和分块以优化上下文窗口。 要求 • 10 年数据工程角色经验。 • 2 年 AI 相关数据角色经验。 • 精通 Python、pandas 和文本处理工具。 • 熟悉分词库(HuggingFace Tokenizers、SentencePiece)。 • 具备管理数据集和对象存储(MinIO、NFS)的经验。 • 理解 LLM 数据限制(上下文窗口、格式化、提示注入)。 关键技能 Apache Hive、S3、Hadoop、Redshift、Spark、AWS、Apache Pig、NoSQL、大数据、数据仓库、Kafka、Scala。 就业类型:全职 职位空缺:1