希望你一切都好。我想雇佣一名有经验的高级大数据开发人员,熟悉Spark、Scala、Databricks、SQL和Azure(有这些经验更好)。这是与我们在印度尼西亚的合作伙伴进行的项目。我们已经有一个人在这个团队工作,现在希望再增加一个人。如果你对这个职位不感兴趣,我还有其他很多与我们的客户/供应商合作的职位可以和你讨论。
如果你正在找工作,请随时联系我,我会和你详细讨论。最后,我想提一下,根据你的移民身份,我们的机构也会为需要H1B签证和绿卡的人提供赞助。我们不能通过任何中间商进行合作,将直接雇佣候选人。期待你的回复。
职位名称:
高级大数据工程师
工作地点:
加利福尼亚州旧金山(可远程工作)
合同期限:6个月(如果有多名顾问在这个团队工作了2年以上,会延长合同期限)
面试:2轮(第一轮1小时的视频技术面试,第二轮30分钟的形式性人格面试)
我在加利福尼亚州有8个职位空缺。这些职位对远程候选人开放,但工作时间必须符合太平洋标准时间。我们可以直接联系招聘经理进行快速面试安排。如果候选人能通过第一轮面试,他们就能得到这个工作。
Spark
Scala
SQL
Databricks
Azure(有这些经验更好)
职位描述
我们正在寻找一位经验丰富的大数据工程师,熟悉Spark、Scala、SQL和Azure,并能构建分析和机器学习平台,用于收集、存储、处理和分析组织中分散的大量数据。该平台将提供框架,用于快速推出基于数据驱动的产品和微服务的新数据分析。
该平台还将支持机器/深度学习基础设施,为广泛使用的数据科学模型提供运行环境。你将与端到端的产品经理和数据科学家合作,了解客户需求,设计原型并将想法付诸实践。你将开发真实的产品。你需要精通设计、编码和脚本编写。你将编写符合我们标准的高质量代码,必要时创建新的标准,并通过实用的自动化测试验证正确性。
你将审查其他工程师的工作,以提高质量和工程实践,并参加继续教育项目,提升自己的技能。你将作为敏捷工程团队的一员,并参与团队的工作流程。
理想情况下,你需要有5-8年的软件工程师经验,有构建分布式、可扩展和可靠的大规模数据处理和批处理实时处理数据管道的经验。熟悉编程语言/工具,包括Java、Scala、Spark、SQL、Hive和Elastic Search。熟悉Hadoop生态系统中的大多数工具是必要的,但我们主要关注Spark和Scala(如果没有Scala,则使用Java)。
有Spark Streaming、Flink或Apache Bean等流处理技术经验者优先考虑。
有Kafka经验者优先考虑。
有使用Cassandra、HBase、MongoDB和/或Couchbase等各种NoSQL数据库的工作经验者优先考虑。如果你有机器学习或深度学习知识,将会是一个加分项(这将在工作中学习)。
你将与市场营销和供应链团队合作,参与个性化计划,并与第三方供应商进行数据分析、市场营销和运营工作,包括电子邮件和目录活动。最终将在网站的产品推荐领域进行机器学习。
团队正在使用Scala中的Spark处理交易和点击流数据,以确定关联性和产品推荐。你将参与批处理和实时流处理项目。在批处理中,你将使用Azure工具创建Spark作业和Azure云,用于批处理作业的调度和工作流管理。目前正在从Teradata迁移到Microsoft Azure。
总体来说,你将使用Spark构建一个新的数据平台,并从事交易系统中提取数据并在Spark中进行处理,框架是用Scala(或Java)编写的。
1)使用Dataframe API进行基本的转换,如过滤、映射和计数等操作
2)遍历Scala集合
3)Spark并行处理-从外部关系型数据库中提取数据,进行本地转换
4)数据仓库-维度、事实,何时进行全量加载和增量加载等
5)基本的软件工程原理。
#J-18808-Ljbffr