任务详情
负责EDB项目中Data Product Engine(DPE)核心组件的开发、部署、运维和优
化工作。DPE是数据产品生命周期中的关键组态管理等核心功能。
主要职责
件,负责串联各组件,实现元数据处
理、数据入湖、Recipe处理、数据转换和状
开发工作:
1.核心组件开发2.数据处理流程实现基于Spark的数据批处理和流处理逻辑开发Iceberg表结构设计和数据写入逻辑卫米拒古场和王田扣川开发状态管理和错误重试机制
3.系统集成
集成Kafka消息队列,实现消息消费和生产
集成Apache Atlas,实现元数据管理和分类
集成Metadata Center,实现元数据注册和查
询
集成Livy服务,实现Spark任务调度
运维工作
1.系统部署
负责DPE系统的容器化部署和配置管理
管理多环境(开发、测试、生产)的部署和配
置
实现自动化部署和CI/CD流程
2.监控和告警建立系统监控体系,包括业务指标和技术指标配置告警规则,实现故障自动发现监控Kafka消费延迟、Livy任务执行状态Spark资源使用情况快速定位和解决系统故障分析性能瓶颈并进行优化维护系统稳定性和可用性4.数据安全
实现敏感数据脱敏和加密处理管理Kerberos认证和权限控制
确保数据访问安全性
技术要求核心技术栈Java/Scala
编程语言:Python 3.8+(主要),熟悉
数据相关: Apache Spark(PySpark).
Apache Kafka、 Apache lceberg
Trino、Flink、Hive、DBT
消息队列: Kafka客户端开发,熟悉消费者/生
产者模式
元数据管理:Apache Atlas AP|集成
容器化: Docker/Podman、Kubernetes
必备技能
1.数据处理能力理解批处理和流处理架构熟悉数据湖和数据仓库概念
熟练掌握Spark DataFrame APl和SQL
2.系统集成能力
熟悉RESTfuI API设计和集成
理解微服务架构和组件间通信
具备消息队列和事件驱动架构经验
3. 运维能力
熟悉Linux系统管理和Shell脚本
具备日志分析和问题排查能力
了解监控工具和告警机制
4.安全知识
熟悉Kerberos认证机制
了解数据安全和隐私保护
具备权限管理和访问控制经验
德国车企项目。八个月到一年的项目周期。全程远程办公,每周一线上会议对接需求,交付上周成果;对于我们30+的兄弟们来说,主要考虑到既不用去北京租房子,也不用朝九晚五的挤地铁,可以多多照顾家人、享受个人生活,没有日常人际管理的压力;建议每天工作3~4小时即可,如果愿意集中挤一挤,每周忙个三天,剩下的四天自由活动, 带带娃/陪陪老婆或女朋友,或者打打游戏,何尝不身心舒畅。
费用市场价格基础上从优,欢迎不想坐班、想多多回归家庭、不想日常人际沟通的兄弟姐妹,请随时与我联系!
费用市场价格基础上从优,欢迎不想坐班、想多多回归家庭、不想日常人际沟通的兄弟姐妹,请随时与我联系!
电话如果未接(有时较忙),请短信和我联系,谢谢!