员工数据工程师

芝加哥 1个月前全职 网络
121万 - 131.8万 / 年
• **该职位在美国完全远程工作(偶尔需要出差与团队或合作伙伴会面)。为了减少不可避免的虚假候选人的涌入,我们没有将其发布为远程职位。*** 关于我们: Novaprime 是一家抵押贷款科技公司,致力于通过利用新兴技术降低贷款发放成本,重点关注人工智能和分布式账本技术(DLT)。我们通过专注于数据驱动的创新,与全球一些最大的机构合作,并创造成果来实现我们的目标。Novaprime 得到了抵押贷款行业、风险投资和金融服务领域关键投资者的支持。 职位描述: Novaprime 正在招聘一名员工数据工程师,负责在 AWS 上架构、构建和运营我们以 Databricks 为中心的湖仓。您将负责数据生命周期——流式和批处理摄取、建模、治理、质量、可观察性和成本/性能——使用 Delta Lake、Delta Live Tables 和 Databricks Workflows。这是一个动手的领导角色:您将设定技术方向,交付关键任务管道,指导工程师,并通过定义可信的指标、仪器化和监控直接推动分析,与产品和机器学习团队协作。要成功,您必须喜欢系统思考并始终保持学习。 职责: • 实施新的技术,以获得竞争优势并与我们的业务目标保持一致。 • 通过结合各种技术和与跨职能团队合作,推动从概念到市场的开发。 • 在 Databricks 上定义湖仓架构和标准(统一目录治理、工作流、DLT、Delta Lake)。 • 构建和运营高可靠性的流式和批处理管道,使用结构化流、自动加载、CDC 模式和回填。 • 设计奖章数据模型和规范域;实施 SCD、模式演变和版本化/时间旅行数据集。 • 建立数据质量、服务水平协议/目标、数据血缘/可追溯性和符合 SOC 2 的审计准备文档。 • 推动分析:定义和治理 KPI/指标定义,构建指标管道,启用语义一致性,并实施数据和仪表板的监控/警报。 • 优化 Databricks 上的成本/性能(集群策略、大小、Photon、AQE、分区、文件大小、偏斜缓解、Z-ORDER/OPTIMIZE)。 • 强化安全和隐私(统一目录权限、行/列级控制、个人身份信息掩码/标记、机密管理)。 • 通过标准化、文档齐全的数据集实现自助服务;与机器学习团队协作进行特征管道和特征存储。 • 倡导软件卓越:基于 Git 的工作流、代码审查、自动化测试、数据的 CI/CD 和基础设施即代码(IaC)。 • 与产品经理、设计师和其他利益相关者合作,制定战略并实施新产品和功能。 • 跟踪最新技术,以保持市场竞争力和技术领导地位。 • 完成各种与工程相关的任务,以继续推进组织的使命。 要求: • 计算机科学学士学位或同等经验。 • 8年以上构建和运营生产数据平台的经验;4年以上深入、动手的 Databricks/Spark(PySpark + SQL)经验。 • 拥有生产湖仓(S3 + Delta Lake)的证明,具有严格的服务水平协议和合规要求。 • 精通 Delta Lake(合并/CDC、模式演变、时间旅行、优化/Z-ORDER、清理)和 DLT、工作流、自动加载;在生产中具有特征存储经验。 • 强大的数据建模能力(维度、规范),SCD 类型 1/2,以及处理慢变实体和模式漂移的能力。 • 交付可信数据集的良好记录,具有监控、警报、血缘和清晰文档的能力;能够定义和维护供产品和业务使用的指标层。 • 精通 Python 和 SQL;测试文化(pytest)、CI/CD(GitHub Actions)和 Terraform for Databricks;良好的 Git 实践。 • AWS 基础知识:S3、IAM、网络基础;事件摄取。 • 出色的沟通和领导能力;能够推动设计审查,撰写清晰的技术文档,并在远程、异步环境中指导工程师。 期望经验: • Databricks SQL/无服务器、统一目录血缘/系统表和语义层经验。 • 产品分析和可观察性:Mixpanel 和 New Relic。 • 先前领导 SOC 2 审计/准备和数据平台的值班轮换经验。 • 之前的初创公司经验。 福利: • 竞争力的薪资、股权和福利。 • 主要远程工作。 • 有机会为数百万人的房主能力做出贡献。 我们是一个平等机会的雇主,重视公司内部的多样性。我们不基于种族、宗教、肤色、国籍、性别、性取向、年龄、婚姻状况、退伍军人身份或残疾状态进行歧视。