• 开发和优化基于 Python 的 ETL 管道,用于批量和增量数据迁移。
• 将来自 COBOL Enscribe/SQL MP 源的数据 (以 CSV 格式) 加载到 PostgreSQL。
• 使用 Python、SQL 和 Pandas 实现数据转换、清洗、验证和丰富。
• 设计和调整高性能 SQL 查询、索引策略和数据库过程。
• 将遗留数据模型映射到目标架构,并与技术团队解决异常问题。
• 创建自动化验证和对账脚本,以确保数据质量和准确性。
• 支持 QA 提供测试用例、测试数据和验证工作流程。
• 设计和自动化备份、恢复和清理策略,以符合合规性和法规要求。
• 通过 CI/CD 部署 ETL 组件,并管理迁移波次、干运行、回滚和切换。
• 编写清晰的文档,并与利益相关者有效沟通。
• 扎实的 Python 开发能力 (Pandas, NumPy, SQLAlchemy, pyodbc, 自定义 ETL 框架)。
• 精通 SQL:连接、窗口函数、CTE、分区、索引。
• 有 ETL 工具 (Airflow, Informatica, Glue, Talend, SSIS 等) 的经验。
• 具备处理大数据集 (>100M 行) 的数据迁移经验。
• 对 RDBMS 概念、建模、约束和引用完整性有扎实的理解。
• 较强的分析、解决问题、沟通和文档编写能力。
• 能够在迁移和切换期间在紧迫的时间限制下工作。
教育背景:计算机科学、信息系统、数据工程或相关领域的学士或硕士学位。
云/ETL/Python/数据库认证者优先。