数据工程师 AWS Python - Fusemachines招聘

Fusemachines是一家领先的人工智能战略、人才和教育服务提供商。由哥伦比亚大学兼职副教授Sameer Maskey博士创立，Fusemachines的核心使命是推动人工智能的民主化。Fusemachines在尼泊尔、美国、加拿大和多米尼加共和国等4个国家设有办事处，并拥有450多名全职员工，致力于将其在数据、分析和人工智能方面的全球专业知识应用于全球范围内的公司转型。职位描述：我们正在寻找一位技术娴熟、经验丰富的AWS数据工程师，以远程合同方式加入我们的团队，工作时间为美国中部时间。在这个职位上，您将负责以高效和优化的方式设计、构建和维护数据集成、存储和处理所需的基础设施和代码，为一家专注于使用人工智能实现流程自动化的法律公司提供支持。资格和经验要求： • 必须拥有计算机科学或类似专业的全日制学士学位 • 至少3年的数据工程师经验，具有Python、AWS和API方面的专业知识 • 3年以上的Azure DevOps、GitHub和Jenkins经验 • 在数据和分析方面交付大规模项目和产品的经验，作为一名数据工程师 • 以下认证： • AWS认证云从业者 • AWS认证数据工程师-副级 • Databricks认证Apache Spark关联开发人员：优先考虑 • Databricks认证数据工程师副级：优先考虑所需技能/能力： • 熟练掌握一种或多种编程语言，如Python（必备）、Scala，并具备编写高效和优化代码进行数据集成、存储、处理和操作的能力。 • 具备扎实的SQL理解和经验，能够编写高级SQL查询。 • 对大数据原理、技术和最佳实践有深入的理解和经验。 • 具备Spark/PySpark（必备，有Databricks经验者优先）、DBT和Kafka等可扩展和分布式数据处理技术的丰富经验，以处理大量数据。 • 具备设计和实施高效ELT/ETL流程的经验，能够根据需要开发定制集成解决方案。 • 熟练处理来自不同来源（如API、数据库、平面文件、Apache Parquet、事件流）的数据集成。 • 精通数据清洗、转换和验证。 • 熟练掌握关系数据库（Oracle、SQL Server、MySQL、Postgres等）和非关系数据库（MongoDB）。 • 对数据建模和数据库设计原则有良好的理解。能够设计和实施满足数据架构要求、支持数据解决方案的高效数据库模式。 • 在AWS中设计和实施数据仓库、数据湖和数据湖屋解决方案的丰富经验。 • 对软件开发生命周期（SDLC）有深入的了解，特别是敏捷方法论。 • 熟悉SDLC工具和技术，包括项目管理软件（Jira、Azure Boards或类似工具）、源代码管理（GitHub、Azure Repos或类似工具）、持续集成/持续交付系统（GitHub actions、AWS CodeBuild、AWS CodePipeline、AWS Azure Pipelines、Jenkins或类似工具）和二进制存储库管理器（AWS CodeArtifact、Azure Artifacts或类似工具）。 • 对DevOps原则有深入的理解，包括持续集成、持续交付（CI/CD）、基础设施即代码（IaC - Terraform）、配置管理、自动化测试、性能调优和成本管理与优化。 • 深入了解与数据和分析相关的AWS服务，如Glue、SageMaker、Redshift、Lambda、Kinesis、S3、Lake Formation、EC2、ECS/ECR、EKS、IAM、CloudWatch、CosmoDB等。 • 使用Databricks工作流和Apache Airflow等技术进行编排的经验。 • 对数据结构和算法有深入的了解，并具备良好的软件工程实践。 • 具备构建可扩展、可投入生产环境的REST API的经验。 • 熟悉API设计、测试和文档编写。 • 具备使用Flask和FastAPI等Python Web框架的经验。 • 优先考虑：有EKS和Helm Charts的经验。 • 具备分析问题的能力，能够识别和解决技术问题、性能瓶颈和系统故障。 • 熟练调试和解决复杂数据和分析环境和流水线中的问题。 • 对数据质量和治理有良好的理解，包括实施数据质量检查和监控流程，确保数据准确、完整和一致。 • 具备良好的问题解决能力：能够排除数据处理流水线中的故障，并识别性能瓶颈和其他问题。 • 具备与跨职能团队合作的有效沟通能力，包括业务用户、数据架构师、DevOps工程师、数据分析师、数据科学家、开发人员和运营团队。 • 能够记录流程、程序和部署配置。 • 对安全实践有了解，包括网络安全组、加密和合规标准。 • 能够在数据和分析解决方案中实施安全控制和最佳实践，包括熟练掌握各种云安全漏洞及其缓解方式的知识和实际工作经验。 • 自我激励，能够在团队中良好地工作。 • 愿意及时了解最新的服务、数据工程趋势和最佳实践。 • 能够独立学习新技术，并在快速变化的环境中处理模糊的需求。 • 注重架构、可观察性、测试和构建可靠的基础设施和数据流水线。 • 能够快速适应并为现有代码库做出贡献。职责： • 遵循既定的设计和构建数据架构。开发和维护数据流水线，确保数据从源头流动到目的地。 • 处理ELT/ETL流程，包括数据提取、加载和转换。 • 参与数据质量保证工作，如实施数据验证检查和测试，以确保数据的准确性、完整性和一致性。 • 在发布给QA之前测试软件解决方案，并满足产品质量标准。 • 确保数据系统的可靠性、可扩展性和效率始终保持。识别和解决由于数据、查询和处理工作流引起的流水线性能瓶颈，以确保数据的高效和及时交付。 • API设计、测试和文档编写。 • 与DevOps团队合作，优化我们的资源，如存储。 • 为初级数据工程师提供指导和指导，促进其职业成长。 • 协助配置和管理数据仓库和数据湖解决方案。 • 与产品、工程、数据科学家和分析师等跨职能团队紧密合作，全面了解数据需求，并提供数据工程支持。 • 承担存储层、数据库管理任务的所有权，包括模式设计、索引和性能调优。 • 评估和实施尖端技术，并继续学习和扩展数据工程和云平台技能。 • 开发、设计和执行数据治理策略，包括编目、血统跟踪、质量控制和与当前分析需求和行业最佳实践相一致的数据治理框架，与数据架构师密切合作。 • 确保技术解决方案满足客户和/或组织的需求。 • 定义和记录数据工程流程和数据流程。 Fusemachines是一家机会均等的雇主，致力于多样性和包容性。所有合格的申请人将获得根据适用的联邦、州或地方法律的保护，不受种族、肤色、宗教、性别、性取向、性别认同、国籍、残疾或任何其他受适用法律保护的特征的限制。您是否愿意签订合同协议？* 您是否有在AWS上工作的经验？* 您是否有使用Python的经验？* 是否有使用GitHub的经验？* 还有使用Rest API的经验吗？* #J-18808-Ljbffr

Data Engineer AWS Python

Fusemachines