职责
• 设计和实施用于生成和更新数据字典的自动化脚本。
• 扫描目录中的所有模式,将表格选择到路径列表中;
• 在表格和列级别提取详细信息到数据框中;
• 使用PySpark处理缺失和不规则值;与Notion API集成,以规定的格式填充数据字典到Notion页面中。
• 在Databricks工作流上部署脚本并设置定期执行规则;
• 提高数据质量和一致性,同时减少手动维护成本。
• 利用Selenium和ChromeDriver定期自动加载SuperSet页面并生成缓存,缩短用户感知的加载时间。
要求
• 计算机科学、数据科学、统计学或相关领域的学士学位。
• 至少6个月的数据平台、数据分析或相关项目的实际经验。
• 使用Python(NumPy、Pandas、PySpark、Scikit learn Matplotlib、Plotly、Selenium、Pytest Bash)的经验。
• 有Hadoop、Hive、Spark Databricks Airflow Argo Docker Redshift Athena、BigQuery的经验。
• 具备使用Tableau、Power BI或类似工具进行数据可视化的强大专业知识,能够创建引人注目的数据可视化和报告。