职位: 数据工程师(Python,AWS)
客户: 投资行业客户
类型: 6 个月合同(22 周) + 强有力的延长或转正机会
地点: 加拿大安大略省多伦多市中心
工作模式: 混合 — 每周 4 天现场工作,周五远程工作
开放职位数量: 1
此职位为何开放?
• 原始职位是质量工程师(QE),但职责已演变为完整的数据工程师。
• 需要高级人员支持持续的数据质量 + 数据工程项目。
• 根据预算,有很强的延长或转正机会。
当前需要解决的问题
客户的风险和数据团队依赖于来自多个上游来源的数据流动。管道中的任何不正确数据都会破坏模型、计算和下游报告。
团队正在转向“左移”模型,将质量检查嵌入到原始数据层更近的地方。此工程师将在实施该策略中发挥核心作用。
他们将完成的工作(高层次)
• 解决组织范围内的数据质量问题,涉及数据产品。
• 实施数据质量检查和警报。
• 帮助将非结构化数据转变为结构化数据,随着新企业工具的引入。
• 加强数据管道,以支持运营尽职调查数据产品。
日常职责
• 构建和增强支持风险和运营数据的数据管道。
• 在现有框架内实施和维护数据质量规则。
• 添加数据验证(例如,空值检查、模式检查、上游依赖验证)。
• 设置数据质量问题的警报/通知(SNS/SMS)。
• 处理大型高容量数据集。
• 支持新第三方工具的引入,并将非结构化输出转换为结构化数据。
• 与数据工程师和负责人合作,以确保数据产品的一致性。
必须具备的条件
• 较强的数据工程经验
• Python
• Airflow(核心要求)
• AWS 数据栈,包括 AWS Glue 和 Lake Formation
• 高容量数据处理经验
• 构建和支持数据管道的经验
加分条件
• Glue/Athena/Table 格式(Arcaid 表)
• S3 专业知识
• 能够设置 SNS 通知
• 更广泛的 AWS 生态系统接触
• 数据质量工程经验(集成到管道中)
• 数据质量框架的实践经验
角色重点
• 70-80% 数据工程
• 20-30% 数据质量工程
• 确保质量检查内置于管道中,而不是作为单独功能处理。
• 框架已存在 — 工程师需要定义和应用规则,而不是从头开始构建。