职位:高级数据工程师
地点:宾夕法尼亚州伯利恒,混合办公
合约期限:6-12个月
职责:
作为数据管道的一部分,架构、构建和维护可扩展和可靠的数据管道,包括强大的数据质量,可供分析和BI层使用。
设计、开发和实施低延迟、高可用性和高性能的数据应用,并推荐并实施创新的工程解决方案。
使用Python、SQL、PySpark和bash脚本设计、开发、测试和调试代码。
设计和实施数据质量框架,并将其应用于关键数据管道,使数据层对下游消费者具有鲁棒性和可信度。
设计和开发用于SQL、Python和PySpark编写的数据管道的编排层。
应用并提供关于软件工程技术的指导,如设计模式、代码重构、框架设计、代码可重用性、代码版本控制、性能优化和持续构建和集成(CI/CD),以使数据分析团队具有鲁棒性和高效性。
要求:
具有计算机科学、工程学、应用数学或相关领域的学士/硕士学位,5年以上相关经验。
在Python、SQL和Bash方面有丰富的实际开发经验。
在数据管道的性能优化方面有丰富的经验。
在与Databricks、Redshift或Snowflake等云数据仓库和数据湖平台一起工作方面有丰富的实际经验。
熟悉使用Python、SQL、PySpark构建和部署可扩展数据管道以开发和部署数据解决方案。
在使用Apache Airflow、Prefect、Databricks Workflow等框架为数据管道开发端到端编排层方面有丰富的经验。
熟悉以下内容:
使用RESTful Web服务(REST API)与其他服务集成。
使用APIGEE等API网关来保护Web服务端点。
数据管道、并发和并行处理。
具有在各种环境中创建和配置持续集成/持续部署的经验,并使用最佳实践进行DevOps,将代码迁移到生产环境。
能够调查和修复应用程序缺陷,无论是前端、业务逻辑、中间件还是数据库,以提高代码质量、一致性、延迟,并识别实现中的任何瓶颈或差距。
能够使用pytest等单元测试库编写Python单元测试。
具有使用和实施数据可观察性平台(如Monte Carlo Data、Metaplane、Soda、bigeye或其他类似产品)的经验。
具有通过监视虚拟机上的日志或使用AWS的Cloudwatch等功能,在云环境中调试问题的专业知识。
具有使用Jenkins和Terraform等DevOps技术栈的经验。
具有在软件领域中观察性概念的工作经验,并熟悉Splunk、Zenoss、Datadog或类似工具。
具有开发和实施数据质量框架的经验,无论是自主开发还是使用Great Expectations、Soda、Deequ等开源框架。
请将您的最新简历发送至Ziauddin@cloudresources.net。