数据工程师 AWS Python

14个月前远程全职
Fusemachines

Fusemachines

location 多伦多
unsaved
关于Fusemachines Fusemachines是一家领先的人工智能战略、人才和教育服务提供商。由哥伦比亚大学兼职副教授Sameer Maskey博士创立,Fusemachines的核心使命是普及人工智能。Fusemachines在尼泊尔、美国、加拿大和多米尼加共和国等4个国家设有办事处,并拥有450多名全职员工,旨在将其在数据、分析和人工智能方面的全球专业知识带给世界各地的公司,以实现转型。 职位描述: 我们正在寻找一位技术娴熟、经验丰富的AWS数据工程师,以远程合同方式加入我们的团队,工作时间为美国中东部时间。在这个职位上,您将负责设计、构建和维护数据集成、存储和处理所需的基础设施和代码,以高效和优化的方式为一家专注于使用人工智能自动化流程的法律公司提供支持。 资格和经验要求: • 必须拥有计算机科学或类似专业的全日制学士学位 • 至少3年的数据工程师经验,具有Python、AWS和API方面的专业知识。 • 3年以上的Azure DevOps、GitHub和Jenkins经验。 • 在数据和分析方面交付大规模项目和产品的经验,作为数据工程师。 • 以下认证: • AWS认证云从业者 • AWS认证数据工程师-助理 • Databricks认证Apache Spark关联开发人员:最好有 • Databricks认证数据工程师助理:最好有 所需技能/能力: • 精通一种或多种编程语言,如Python(必备)、Scala,并熟练编写高效和优化的代码以进行数据集成、存储、处理和操作。 • 深入理解并具有SQL和编写高级SQL查询的经验。 • 对大数据原理、技术和最佳实践有深入了解和经验。 • 在可扩展和分布式数据处理技术方面具有丰富经验,如Spark/PySpark(必备,有Databricks经验更佳)、DBT和Kafka,能够处理大量数据。 • 在设计和实施高效的ELT/ETL流程方面具有丰富经验,能够根据需要开发定制集成解决方案。 • 熟练处理来自不同来源(如API、数据库、平面文件、Apache Parquet、事件流)的数据集成。 • 精通数据清洗、转换和验证。 • 熟练使用关系数据库(Oracle、SQL Server、MySQL、Postgres等)和非关系数据库(MongoDB)。 • 对数据建模和数据库设计原则有良好的理解。能够设计和实施满足数据架构要求的高效数据库模式,以支持数据解决方案。 • 在AWS中设计和实施数据仓库、数据湖和数据湖仓库解决方案方面具有丰富经验。 • 对软件开发生命周期(SDLC)有深入了解,特别是敏捷方法论。 • 熟悉SDLC工具和技术,包括项目管理软件(Jira、Azure Boards或类似工具)、源代码管理(GitHub、Azure Repos或类似工具)、持续集成/持续交付系统(GitHub Actions、AWS CodeBuild、AWS CodePipeline、AWS Azure Pipelines、Jenkins或类似工具)和二进制存储库管理器(AWS CodeArtifact、Azure Artifacts或类似工具)。 • 对DevOps原则有深入了解,包括持续集成、持续交付(CI/CD)、基础设施即代码(IaC - Terraform)、配置管理、自动化测试、性能调优和成本管理和优化。 • 对云计算特别是与数据和分析相关的AWS服务(如Glue、SageMaker、Redshift、Lambda、Kinesis、S3、Lake Formation、EC2、ECS/ECR、EKS、IAM、CloudWatch、CosmoDB等)有深入了解。 • 使用Databricks工作流程和Apache Airflow等技术进行编排的经验。 • 对数据结构和算法有深入了解,并具备良好的软件工程实践。 • 具备构建可扩展、适用于生产环境的REST API的经验。 • 了解API设计、测试和文档编写。 • 具备使用Flask和FastAPI等Python Web框架的经验。 • 最好有:使用EKS和Helm Charts的经验。 • 具备分析问题的能力,能够识别和解决技术问题、性能瓶颈和系统故障。 • 熟练调试和解决复杂数据和分析环境和流水线中的问题。 • 对数据质量和治理有良好的理解,包括实施数据质量检查和监控流程,确保数据准确、完整和一致。 • 具备良好的解决问题的能力:能够排除数据处理流水线中的故障,并识别性能瓶颈和其他问题。 • 有效的沟通技巧,能够与跨职能团队(包括业务用户、数据架构师、DevOps工程师、数据分析师、数据科学家、开发人员和运维团队)合作。 • 能够记录流程、程序和部署配置。 • 理解网络安全组、加密和合规标准等安全实践。 • 能够在数据和分析解决方案中实施安全控制和最佳实践,包括熟练掌握各种云安全漏洞和缓解方法的知识和实际经验。 • 自我激励,能够在团队中良好地工作。 • 愿意及时了解最新的服务、数据工程趋势和最佳实践。 • 能够独立学习新技术并在快速变化的环境中工作,应对模糊的需求。 • 关注架构、可观察性、测试和构建可靠的基础设施和数据流水线。 • 能够快速上手并为现有代码库做出贡献。 职责: • 遵循已建立的设计和构建的数据架构。开发和维护数据流水线,确保数据从源头流畅地流向目的地。 • 处理ELT/ETL流程,包括数据提取、加载和转换。 • 参与数据质量保证工作,例如实施数据验证检查和测试,以确保数据的准确性、完整性和一致性。 • 在发布给QA之前测试软件解决方案,确保达到产品质量标准。 • 确保数据系统的可靠性、可扩展性和效率始终保持。识别和解决由于数据、查询和处理工作流引起的流水线性能瓶颈,以确保数据高效、及时地交付。 • API设计、测试和文档编写。 • 与DevOps团队合作,优化我们的资源,如存储空间。 • 为初级数据工程师提供指导和指导,促进他们的职业成长。 • 协助配置和管理数据仓库和数据湖解决方案。 • 与产品、工程、数据科学家和分析师等跨职能团队密切合作,全面了解数据需求,并提供数据工程支持。 • 承担存储层、数据库管理任务的责任,包括模式设计、索引和性能调优。 • 评估和实施尖端技术,并继续学习和扩展数据工程和云平台技能。 • 开发、设计和执行数据治理策略,包括编录、血统跟踪、质量控制和与当前分析需求和行业最佳实践相一致的数据治理框架,与数据架构师密切合作。 • 确保技术解决方案符合客户和/或组织的需求。 • 定义和记录数据工程流程和数据流程。 Fusemachines是一家机会均等的雇主,致力于多元化和包容性。所有合格的申请人将获得不受适用的联邦、州或地方法律保护的就业机会。 由JazzHR提供支持