Fusemachines是一家领先的人工智能战略、人才和教育服务提供商。由哥伦比亚大学兼职副教授Sameer Maskey博士创立,Fusemachines的核心使命是推动人工智能的民主化。Fusemachines在尼泊尔、美国、加拿大和多米尼加共和国等4个国家设有办事处,并拥有450多名全职员工,致力于将其在数据、分析和人工智能方面的全球专业知识应用于全球范围内的公司转型。
职位描述:
我们正在寻找一位技术娴熟、经验丰富的AWS数据工程师,以远程合同方式加入我们的团队,工作时间为美国中部时间。在这个职位上,您将负责以高效和优化的方式设计、构建和维护数据集成、存储和处理所需的基础设施和代码,为一家专注于使用人工智能实现流程自动化的法律公司提供支持。
资格和经验要求:
• 必须拥有计算机科学或类似专业的全日制学士学位
• 至少3年的数据工程师经验,具有Python、AWS和API方面的专业知识
• 3年以上的Azure DevOps、GitHub和Jenkins经验
• 在数据和分析方面交付大规模项目和产品的经验,作为一名数据工程师
• 以下认证:
• AWS认证云从业者
• AWS认证数据工程师-副级
• Databricks认证Apache Spark关联开发人员:优先考虑
• Databricks认证数据工程师副级:优先考虑
所需技能/能力:
• 熟练掌握一种或多种编程语言,如Python(必备)、Scala,并具备编写高效和优化代码进行数据集成、存储、处理和操作的能力。
• 具备扎实的SQL理解和经验,能够编写高级SQL查询。
• 对大数据原理、技术和最佳实践有深入的理解和经验。
• 具备Spark/PySpark(必备,有Databricks经验者优先)、DBT和Kafka等可扩展和分布式数据处理技术的丰富经验,以处理大量数据。
• 具备设计和实施高效ELT/ETL流程的经验,能够根据需要开发定制集成解决方案。
• 熟练处理来自不同来源(如API、数据库、平面文件、Apache Parquet、事件流)的数据集成。
• 精通数据清洗、转换和验证。
• 熟练掌握关系数据库(Oracle、SQL Server、MySQL、Postgres等)和非关系数据库(MongoDB)。
• 对数据建模和数据库设计原则有良好的理解。能够设计和实施满足数据架构要求、支持数据解决方案的高效数据库模式。
• 在AWS中设计和实施数据仓库、数据湖和数据湖屋解决方案的丰富经验。
• 对软件开发生命周期(SDLC)有深入的了解,特别是敏捷方法论。
• 熟悉SDLC工具和技术,包括项目管理软件(Jira、Azure Boards或类似工具)、源代码管理(GitHub、Azure Repos或类似工具)、持续集成/持续交付系统(GitHub actions、AWS CodeBuild、AWS CodePipeline、AWS Azure Pipelines、Jenkins或类似工具)和二进制存储库管理器(AWS CodeArtifact、Azure Artifacts或类似工具)。
• 对DevOps原则有深入的理解,包括持续集成、持续交付(CI/CD)、基础设施即代码(IaC - Terraform)、配置管理、自动化测试、性能调优和成本管理与优化。
• 深入了解与数据和分析相关的AWS服务,如Glue、SageMaker、Redshift、Lambda、Kinesis、S3、Lake Formation、EC2、ECS/ECR、EKS、IAM、CloudWatch、CosmoDB等。
• 使用Databricks工作流和Apache Airflow等技术进行编排的经验。
• 对数据结构和算法有深入的了解,并具备良好的软件工程实践。
• 具备构建可扩展、可投入生产环境的REST API的经验。
• 熟悉API设计、测试和文档编写。
• 具备使用Flask和FastAPI等Python Web框架的经验。
• 优先考虑:有EKS和Helm Charts的经验。
• 具备分析问题的能力,能够识别和解决技术问题、性能瓶颈和系统故障。
• 熟练调试和解决复杂数据和分析环境和流水线中的问题。
• 对数据质量和治理有良好的理解,包括实施数据质量检查和监控流程,确保数据准确、完整和一致。
• 具备良好的问题解决能力:能够排除数据处理流水线中的故障,并识别性能瓶颈和其他问题。
• 具备与跨职能团队合作的有效沟通能力,包括业务用户、数据架构师、DevOps工程师、数据分析师、数据科学家、开发人员和运营团队。
• 能够记录流程、程序和部署配置。
• 对安全实践有了解,包括网络安全组、加密和合规标准。
• 能够在数据和分析解决方案中实施安全控制和最佳实践,包括熟练掌握各种云安全漏洞及其缓解方式的知识和实际工作经验。
• 自我激励,能够在团队中良好地工作。
• 愿意及时了解最新的服务、数据工程趋势和最佳实践。
• 能够独立学习新技术,并在快速变化的环境中处理模糊的需求。
• 注重架构、可观察性、测试和构建可靠的基础设施和数据流水线。
• 能够快速适应并为现有代码库做出贡献。
职责:
• 遵循既定的设计和构建数据架构。开发和维护数据流水线,确保数据从源头流动到目的地。
• 处理ELT/ETL流程,包括数据提取、加载和转换。
• 参与数据质量保证工作,如实施数据验证检查和测试,以确保数据的准确性、完整性和一致性。
• 在发布给QA之前测试软件解决方案,并满足产品质量标准。
• 确保数据系统的可靠性、可扩展性和效率始终保持。识别和解决由于数据、查询和处理工作流引起的流水线性能瓶颈,以确保数据的高效和及时交付。
• API设计、测试和文档编写。
• 与DevOps团队合作,优化我们的资源,如存储。
• 为初级数据工程师提供指导和指导,促进其职业成长。
• 协助配置和管理数据仓库和数据湖解决方案。
• 与产品、工程、数据科学家和分析师等跨职能团队紧密合作,全面了解数据需求,并提供数据工程支持。
• 承担存储层、数据库管理任务的所有权,包括模式设计、索引和性能调优。
• 评估和实施尖端技术,并继续学习和扩展数据工程和云平台技能。
• 开发、设计和执行数据治理策略,包括编目、血统跟踪、质量控制和与当前分析需求和行业最佳实践相一致的数据治理框架,与数据架构师密切合作。
• 确保技术解决方案满足客户和/或组织的需求。
• 定义和记录数据工程流程和数据流程。
Fusemachines是一家机会均等的雇主,致力于多样性和包容性。所有合格的申请人将获得根据适用的联邦、州或地方法律的保护,不受种族、肤色、宗教、性别、性取向、性别认同、国籍、残疾或任何其他受适用法律保护的特征的限制。
您是否愿意签订合同协议?*
您是否有在AWS上工作的经验?*
您是否有使用Python的经验?*
是否有使用GitHub的经验?*
还有使用Rest API的经验吗?*
#J-18808-Ljbffr