• **该职位在美国完全远程工作(偶尔需要出差与团队或合作伙伴会面)。为了减少不可避免的虚假候选人的涌入,我们没有将其发布为远程职位。***
关于我们:
Novaprime 是一家抵押贷款科技公司,致力于通过利用新兴技术降低贷款发放成本,重点关注人工智能和分布式账本技术(DLT)。我们通过专注于数据驱动的创新,与全球一些最大的机构合作,并创造成果来实现我们的目标。Novaprime 得到了抵押贷款行业、风险投资和金融服务领域关键投资者的支持。
职位描述:
Novaprime 正在招聘一名员工数据工程师,负责在 AWS 上架构、构建和运营我们以 Databricks 为中心的湖仓。您将负责数据生命周期——流式和批处理摄取、建模、治理、质量、可观察性和成本/性能——使用 Delta Lake、Delta Live Tables 和 Databricks Workflows。这是一个动手的领导角色:您将设定技术方向,交付关键任务管道,指导工程师,并通过定义可信的指标、仪器化和监控直接推动分析,与产品和机器学习团队协作。要成功,您必须喜欢系统思考并始终保持学习。
职责:
• 实施新的技术,以获得竞争优势并与我们的业务目标保持一致。
• 通过结合各种技术和与跨职能团队合作,推动从概念到市场的开发。
• 在 Databricks 上定义湖仓架构和标准(统一目录治理、工作流、DLT、Delta Lake)。
• 构建和运营高可靠性的流式和批处理管道,使用结构化流、自动加载、CDC 模式和回填。
• 设计奖章数据模型和规范域;实施 SCD、模式演变和版本化/时间旅行数据集。
• 建立数据质量、服务水平协议/目标、数据血缘/可追溯性和符合 SOC 2 的审计准备文档。
• 推动分析:定义和治理 KPI/指标定义,构建指标管道,启用语义一致性,并实施数据和仪表板的监控/警报。
• 优化 Databricks 上的成本/性能(集群策略、大小、Photon、AQE、分区、文件大小、偏斜缓解、Z-ORDER/OPTIMIZE)。
• 强化安全和隐私(统一目录权限、行/列级控制、个人身份信息掩码/标记、机密管理)。
• 通过标准化、文档齐全的数据集实现自助服务;与机器学习团队协作进行特征管道和特征存储。
• 倡导软件卓越:基于 Git 的工作流、代码审查、自动化测试、数据的 CI/CD 和基础设施即代码(IaC)。
• 与产品经理、设计师和其他利益相关者合作,制定战略并实施新产品和功能。
• 跟踪最新技术,以保持市场竞争力和技术领导地位。
• 完成各种与工程相关的任务,以继续推进组织的使命。
要求:
• 计算机科学学士学位或同等经验。
• 8年以上构建和运营生产数据平台的经验;4年以上深入、动手的 Databricks/Spark(PySpark + SQL)经验。
• 拥有生产湖仓(S3 + Delta Lake)的证明,具有严格的服务水平协议和合规要求。
• 精通 Delta Lake(合并/CDC、模式演变、时间旅行、优化/Z-ORDER、清理)和 DLT、工作流、自动加载;在生产中具有特征存储经验。
• 强大的数据建模能力(维度、规范),SCD 类型 1/2,以及处理慢变实体和模式漂移的能力。
• 交付可信数据集的良好记录,具有监控、警报、血缘和清晰文档的能力;能够定义和维护供产品和业务使用的指标层。
• 精通 Python 和 SQL;测试文化(pytest)、CI/CD(GitHub Actions)和 Terraform for Databricks;良好的 Git 实践。
• AWS 基础知识:S3、IAM、网络基础;事件摄取。
• 出色的沟通和领导能力;能够推动设计审查,撰写清晰的技术文档,并在远程、异步环境中指导工程师。
期望经验:
• Databricks SQL/无服务器、统一目录血缘/系统表和语义层经验。
• 产品分析和可观察性:Mixpanel 和 New Relic。
• 先前领导 SOC 2 审计/准备和数据平台的值班轮换经验。
• 之前的初创公司经验。
福利:
• 竞争力的薪资、股权和福利。
• 主要远程工作。
• 有机会为数百万人的房主能力做出贡献。
我们是一个平等机会的雇主,重视公司内部的多样性。我们不基于种族、宗教、肤色、国籍、性别、性取向、年龄、婚姻状况、退伍军人身份或残疾状态进行歧视。