向数据工程主管汇报,数据工程专家负责设计、开发和维护我们基于云的数据平台中的数据集成和转换流程。虽然在谷歌云平台(GCP)上的经验是一个重要的优势,但在其他主要云平台(AWS、Azure)上有丰富经验的候选人也会被考虑。该职位强调数据治理、分类和合规性——利用Collibra等工具确保高质量、安全和有良好文档记录的数据资产。
关键职责
数据集成与架构
开发和协调数据管道,从各种来源(例如MySQL、Oracle、PostgreSQL、平面文件等)摄取数据到云环境中,并根据业务需求和要求在多个系统之间移动数据。
与数据分析师和数据架构师合作,定义数据模型、需求和架构,以在数据库(例如BigQuery或其他基于云的关系数据库)中实现最佳性能。
确保支持可扩展性、可靠性和高效数据访问的强大ETL/ELT流程。
数据治理与分类
实施和维护数据治理框架和标准,重点关注数据分类、血统和文档。
利用Collibra或类似平台管理数据目录、业务词汇表和数据政策。
与利益相关者密切合作,以维护数据安全、合规性和隐私的最佳实践。
流程改进与自动化
识别、设计和实施数据交付的流程改进,确保可扩展性和成本效益。
使用脚本语言(例如,Bash、Python)和企业级调度/编排工具(如Airflow)自动化手动任务。
进行根本原因分析以排除数据问题,并实施增强数据可靠性的解决方案。
跨职能合作
与跨职能团队(IT、分析、数据科学等)合作,收集数据需求并改善数据驱动的决策。
提供云数据服务、数据分类标准和治理工具的主题专家意见。
监控和沟通平台性能,主动推荐优化以符合组织目标。
技能与资格
技术专长
拥有至少一个主要云平台(AWS、Azure、GCP)的经验,其中GCP经验被视为重要资产。
对RDBMS(PostgreSQL、MySQL、Oracle、SQL Server)有深入理解,能够优化SQL查询并维护数据库性能。
熟悉版本控制系统(Git),以管理代码库更改并维护清晰的开发工作流程。
熟悉数据治理和分类概念,利用Collibra或类似平台管理数据血统、业务词汇表和元数据。
了解Linux/UNIX环境,并具有使用API(XML、JSON、REST、SOAP)工作的经验。