Data Engineer AWS Python

15 months ago Remote Full-time
Fusemachines

Fusemachines

location Toronto
unsaved
Fusemachines是一家领先的人工智能战略、人才和教育服务提供商。由哥伦比亚大学兼职副教授Sameer Maskey博士创立,Fusemachines的核心使命是推动人工智能的民主化。Fusemachines在尼泊尔、美国、加拿大和多米尼加共和国等4个国家设有办事处,并拥有450多名全职员工,致力于将其在数据、分析和人工智能方面的全球专业知识应用于全球范围内的公司转型。 职位描述: 我们正在寻找一位技术娴熟、经验丰富的AWS数据工程师,以远程合同方式加入我们的团队,工作时间为美国中部时间。在这个职位上,您将负责以高效和优化的方式设计、构建和维护数据集成、存储和处理所需的基础设施和代码,为一家专注于使用人工智能实现流程自动化的法律公司提供支持。 资格和经验要求: • 必须拥有计算机科学或类似专业的全日制学士学位 • 至少3年的数据工程师经验,具有Python、AWS和API方面的专业知识 • 3年以上的Azure DevOps、GitHub和Jenkins经验 • 在数据和分析方面交付大规模项目和产品的经验,作为一名数据工程师 • 以下认证: • AWS认证云从业者 • AWS认证数据工程师-副级 • Databricks认证Apache Spark关联开发人员:优先考虑 • Databricks认证数据工程师副级:优先考虑 所需技能/能力: • 熟练掌握一种或多种编程语言,如Python(必备)、Scala,并具备编写高效和优化代码进行数据集成、存储、处理和操作的能力。 • 具备扎实的SQL理解和经验,能够编写高级SQL查询。 • 对大数据原理、技术和最佳实践有深入的理解和经验。 • 具备Spark/PySpark(必备,有Databricks经验者优先)、DBT和Kafka等可扩展和分布式数据处理技术的丰富经验,以处理大量数据。 • 具备设计和实施高效ELT/ETL流程的经验,能够根据需要开发定制集成解决方案。 • 熟练处理来自不同来源(如API、数据库、平面文件、Apache Parquet、事件流)的数据集成。 • 精通数据清洗、转换和验证。 • 熟练掌握关系数据库(Oracle、SQL Server、MySQL、Postgres等)和非关系数据库(MongoDB)。 • 对数据建模和数据库设计原则有良好的理解。能够设计和实施满足数据架构要求、支持数据解决方案的高效数据库模式。 • 在AWS中设计和实施数据仓库、数据湖和数据湖屋解决方案的丰富经验。 • 对软件开发生命周期(SDLC)有深入的了解,特别是敏捷方法论。 • 熟悉SDLC工具和技术,包括项目管理软件(Jira、Azure Boards或类似工具)、源代码管理(GitHub、Azure Repos或类似工具)、持续集成/持续交付系统(GitHub actions、AWS CodeBuild、AWS CodePipeline、AWS Azure Pipelines、Jenkins或类似工具)和二进制存储库管理器(AWS CodeArtifact、Azure Artifacts或类似工具)。 • 对DevOps原则有深入的理解,包括持续集成、持续交付(CI/CD)、基础设施即代码(IaC - Terraform)、配置管理、自动化测试、性能调优和成本管理与优化。 • 深入了解与数据和分析相关的AWS服务,如Glue、SageMaker、Redshift、Lambda、Kinesis、S3、Lake Formation、EC2、ECS/ECR、EKS、IAM、CloudWatch、CosmoDB等。 • 使用Databricks工作流和Apache Airflow等技术进行编排的经验。 • 对数据结构和算法有深入的了解,并具备良好的软件工程实践。 • 具备构建可扩展、可投入生产环境的REST API的经验。 • 熟悉API设计、测试和文档编写。 • 具备使用Flask和FastAPI等Python Web框架的经验。 • 优先考虑:有EKS和Helm Charts的经验。 • 具备分析问题的能力,能够识别和解决技术问题、性能瓶颈和系统故障。 • 熟练调试和解决复杂数据和分析环境和流水线中的问题。 • 对数据质量和治理有良好的理解,包括实施数据质量检查和监控流程,确保数据准确、完整和一致。 • 具备良好的问题解决能力:能够排除数据处理流水线中的故障,并识别性能瓶颈和其他问题。 • 具备与跨职能团队合作的有效沟通能力,包括业务用户、数据架构师、DevOps工程师、数据分析师、数据科学家、开发人员和运营团队。 • 能够记录流程、程序和部署配置。 • 对安全实践有了解,包括网络安全组、加密和合规标准。 • 能够在数据和分析解决方案中实施安全控制和最佳实践,包括熟练掌握各种云安全漏洞及其缓解方式的知识和实际工作经验。 • 自我激励,能够在团队中良好地工作。 • 愿意及时了解最新的服务、数据工程趋势和最佳实践。 • 能够独立学习新技术,并在快速变化的环境中处理模糊的需求。 • 注重架构、可观察性、测试和构建可靠的基础设施和数据流水线。 • 能够快速适应并为现有代码库做出贡献。 职责: • 遵循既定的设计和构建数据架构。开发和维护数据流水线,确保数据从源头流动到目的地。 • 处理ELT/ETL流程,包括数据提取、加载和转换。 • 参与数据质量保证工作,如实施数据验证检查和测试,以确保数据的准确性、完整性和一致性。 • 在发布给QA之前测试软件解决方案,并满足产品质量标准。 • 确保数据系统的可靠性、可扩展性和效率始终保持。识别和解决由于数据、查询和处理工作流引起的流水线性能瓶颈,以确保数据的高效和及时交付。 • API设计、测试和文档编写。 • 与DevOps团队合作,优化我们的资源,如存储。 • 为初级数据工程师提供指导和指导,促进其职业成长。 • 协助配置和管理数据仓库和数据湖解决方案。 • 与产品、工程、数据科学家和分析师等跨职能团队紧密合作,全面了解数据需求,并提供数据工程支持。 • 承担存储层、数据库管理任务的所有权,包括模式设计、索引和性能调优。 • 评估和实施尖端技术,并继续学习和扩展数据工程和云平台技能。 • 开发、设计和执行数据治理策略,包括编目、血统跟踪、质量控制和与当前分析需求和行业最佳实践相一致的数据治理框架,与数据架构师密切合作。 • 确保技术解决方案满足客户和/或组织的需求。 • 定义和记录数据工程流程和数据流程。 Fusemachines是一家机会均等的雇主,致力于多样性和包容性。所有合格的申请人将获得根据适用的联邦、州或地方法律的保护,不受种族、肤色、宗教、性别、性取向、性别认同、国籍、残疾或任何其他受适用法律保护的特征的限制。 您是否愿意签订合同协议?* 您是否有在AWS上工作的经验?* 您是否有使用Python的经验?* 是否有使用GitHub的经验?* 还有使用Rest API的经验吗?* #J-18808-Ljbffr