职位描述
Square银行团队正在为Square卖家构建一套新的金融产品。我们提供企业支票账户、储蓄账户、信用卡和贷款,帮助卖家管理他们的业务现金流。投资于金融数据网格平台不仅仅是关于数据管理;它是释放我们组织最有价值资产的全部潜力。这是一项关键的战略举措,不仅赋予我们使用数据的独特价值,还将其积极影响扩展到我们的客户、卖家和银行平台的用户。
作为专注于Square银行数据的工程师,您将帮助我们构建自己的Square银行金融数据网格平台,使用实时大数据技术和Medallion架构。您将直接与产品、工程、数据科学和机器学习团队合作,了解他们的用例,开发可靠的、可信赖的数据集,加速重要产品的决策过程。
您将:
• 设计大规模、分布式数据处理系统和流水线,以确保高效可靠的数据摄取、存储、转换和分析
• 推动高质量的软件工程实践,构建可扩展的数据基础设施和流水线
• 构建核心数据集,作为产品和部门(产品、市场营销、销售、财务、客户体验、数据科学、业务运营、IT、工程)的唯一真实数据源
• 与数据科学家和其他跨职能合作伙伴合作,了解他们的需求,并构建可扩展的流水线。
• 通过数据验证、清洗和数据建模技术,识别和解决数据质量和完整性问题。您将实施自动化工作流程,降低团队成员的手动/运营成本,制定和维持数据及时交付的SLA,使我们更接近数据民主化和自助模式(查询探索、仪表盘、数据目录、数据发现)
• 通过AWS、DataBricks和Kafka等技术了解大数据架构。
• 了解数据工程和软件开发领域的新兴技术、最佳实践和行业趋势
• 指导初级数据工程师,促进包容性和成长。
• 远程与分布式同事团队合作 #LI-Remote
• 向银行-数据工程的工程经理汇报
资格要求
您具备:
• 8年以上的数据工程师或软件工程师经验,专注于大规模数据处理和分析
• 您已经担任数据工程师建立核心数据集的工作4年以上。
• 您对分析用例、数据模型和解决复杂数据问题充满热情。
• 您具有在云端(如AWS、GCP、Azure)上交付可扩展数据解决方案的实际经验,涉及多个数据存储(如Databricks、Snowflake、Redshift、Hive、SQL/NoSQL、列式存储格式)和方法(如维度建模、数据集市、星型/雪花模式)
• 您具有使用BigData构建高度可扩展和可靠的数据流水线的实际经验(如Airflow、DBT、Spark、Hive、Parquet/ORC、Protobuf/Thrift等)
• 优化和调整数据流水线,以提高系统的性能、可靠性和可扩展性
• 掌握编程语言(如Go、Ruby、Java、Python)
• 愿意参与专业发展活动,以保持行业知识的更新和尝试新事物的热情