注意:
- 此项目不支持 H1B 签证!
- 职位 - 仅限全职雇佣(不接受 C2C)
项目描述
您将加入一个内部 AI 平台团队,该平台用于处理和与非结构化数据进行交互。团队目前有 30 多人,组织成敏捷团队,每个团队都是自给自足的,负责从创意阶段到分析、实施、测试、生产部署和维护的功能创建。团队是国际化的,位于克拉科夫、弗罗茨瓦夫、伦敦和纽约。
职责
使用 Python 和 Azure Data Factory 设计、构建和维护可扩展的数据管道
与 Azure SQL 和 PostgreSQL 一起处理、转换和存储结构化和非结构化数据
开发和优化高容量数据工作流的 ETL/ELT 过程
使用 Databricks 处理大数据集并为下游 AI/ML 组件构建数据模型
与数据科学家、后端工程师和产品团队合作,了解数据需求
确保数据生命周期各阶段的数据质量、完整性和安全性
使用 Terraform 管理基础设施作为代码,以便配置和维护云资源
使用 Azure DevOps 为数据管道的部署和版本控制贡献 CI/CD 实践
通过 Power BI 或类似工具支持分析和报告团队的数据访问
NY - 每年 100,000 - 120,000 美元毛收入
技能
必须具备
在类似职位上有超过 7 年的经验
在数据处理和脚本编写方面具备强大的 Python 编程技能
有使用 Azure Data Factory (ADF) 构建和编排数据管道的经验
熟练使用 Azure SQL 和 PostgreSQL 数据库
在 Databricks 上进行大数据处理和转换方面有实践经验
对数据工程概念有扎实的理解:ETL/ELT、数据建模、数据质量
熟悉使用 Terraform 的基础设施作为代码
有使用 Azure DevOps 进行 CI/CD 管道和版本控制的经验
能够处理非结构化数据并将其集成到结构化模型中
在敏捷开发环境和跨职能团队中工作经验
良好的沟通能力,能够在国际分布式团队中工作
加分项
有使用 Power BI 或其他 BI 工具进行数据可视化和报告的经验
了解 Spark 和分布式数据处理概念
熟悉 Delta Lake 或类似的数据湖屋架构
了解数据治理、数据血缘和目录工具(例如 Azure Purview)
对机器学习工作流程或支持数据科学团队有基本知识
有使用 API 进行数据摄取或集成的经验
熟悉 Docker 或 Kubernetes 等容器化工具
接触过数据管道健康监控和警报工具(例如 Azure Monitor、Grafana)
了解数据安全最佳实践和合规性(例如 GDPR、数据加密)
有在 AI 相关或非结构化数据项目上工作的经验