角色概述:
ETL和数据工程师负责设计、构建和维护强大的数据管道和后端服务,以支持AI驱动的操作。该角色涉及处理大量IT和云数据,优化ETL流程,并与AIOps平台和ML管道集成。
主要职责:
• 构建和维护可扩展的ETL管道,用于从各种来源(IT基础设施、云、监控系统、API)进行批量和实时数据的摄取、转换和加载。
• 实施数据验证、清洗和标准化,以确保AI模型输入的一致性。
• 开发后端服务和API,以支持数据摄取、元数据管理和配置。
• 优化ETL作业的性能、容错性和低延迟。
• 使用REST API或事件驱动架构与AIOps平台和ML管道集成。
• 使用Airflow、Prefect或Dagster等工具调度和监控ETL工作流。
• 支持CI/CD管道以部署ETL服务和全栈应用程序。
所需技能和工具:
• 编程和脚本:Python、Go (Golang)、Java、Ruby、JavaScript/TypeScript (Next.js)
• ETL和数据工程:Apache NiFi、Spark、Airflow、Flink、Kafka、Talend
• 编排:Airflow、Prefect、Dagster
• 数据存储和湖泊:PostgreSQL、MongoDB、Elasticsearch、Snowflake、BigQuery、S3、GCS、Azure Blob
• 流平台:Kafka、Kinesis、Pub/Sub
加分项:
• 具有使用AIOps和可观测性工具(如Splunk、Dynatrace、AppDynamics、New Relic、Elastic Stack)的经验
• 熟悉ITSM系统(ServiceNow)和CMDB集成
• 理解用于AI驱动操作的指标、日志和跟踪