设计、实施和维护可扩展和高效的数据管道,使用SAS、Spark、Python和PySpark。确保数据从各个来源顺畅地流向目标系统。利用SAS、Spark、Python和PySpark进行高效的数据处理。设计和实施数据模型以支持业务需求。与数据架构师密切合作,确保数据模型与组织需求相符。实施数据质量检查,确保准确性和一致性。遵守数据治理政策,保持数据完整性。使用SAS、Spark、Python和PySpark优化数据处理和查询性能。识别和解决数据管道中的瓶颈。
与数据科学家、分析师和业务利益相关者合作,了解数据需求。要求计算机科学、信息技术或相关领域的学士学位。具有SAS、Spark、Python和PySpark方面的数据工程师的经验。具备大数据技术和分布式计算经验。精通SAS、Spark、Python和PySpark。良好的问题解决和分析能力。优秀的协作和沟通能力。熟悉数据安全和隐私最佳实践。有Hadoop等大数据技术经验者优先。