您的位置:首页 > 任务详情
【成都全职】【分布式AI算力平台】【股权激励】运维工程师 | DevOps
  • 雇主:mike
  • 发布时间:2025-05-13
  • 分类:招聘用工
免责声明 该外包需求信息来源于站外平台,本站仅提供公开信息部分字段展示与订阅服务,更多请查看免责声明。

任务详情

我们是一个AI算力相关的创业团队,团队中有前大厂AI技术负责人(合伙人),现招募一个对AI算力方向感兴趣的全职运维,根据能力可提供灵活的薪资+股权激励组合。 一、岗位使命 负责平台从本地客户端节点到云端控制面的整体交付、Docker镜像制作、持续集成 、 持续部署、监控运维与安全治理,确保平台广域网环境下的稳定、高效与可扩展。 二、核心职责 基础设施即代码(IaC): 设计并维护跨云/本地混合环境的 IaC 模板(Terraform / Pulumi / Ansible),覆盖控制平面与客户端节点部署。 自动化生成客户端镜像的节点启动脚本与健康检查。 CI/CD: 搭建以GitLab CI / Jenkins 为核心的流水线,自动完成 GPU 容器镜像构建、签名、漏洞扫描、发布。 支持蓝绿 、Canary 发布与版本回滚,保障不停机升级。 容器编排与调度: 与平台研发团队协作,落地集群部署、运维,编写 Job / Helm / HCL 模板,优化 GPU 资源调度策略。 研究并实现节点与云端集群的双向心跳、带宽、延迟感知调度。 AI模型相关预配置Docker镜像制作。 网络与安全: 设计端到端加密与零信任认证(OAuth2 / SPIFFE)。 管理负载均衡、服务网格(Istio / Consul)和动态 DNS,提高跨 NAT / CGNAT 的连通性。 可观测性: 部署 Prometheus / Grafana / Loki / Tempo,建立节点-容器-任务三级指标与日志链路。 构建 ELK / ClickHouse 日志分析平台,编写告警规则(Alertmanager / OpsGenie)。 故障应急 & SRE(非必需): 制定 SLO / SLA;编写容量与灾备方案,多地域冗余与自动故障迁移。 参与 7/24 值班、演练 Chaos 工具(LitmusChaos / ChaosMesh)。 合规与安全治理(非必需): 推行 DevSecOps,嵌入 SBOM、CVE 扫描(Trivy、Grype),输出企业级基线。 配合法律团队审查容器镜像许可证等合规风险。 三、任职要求 学历与经验: 计算机 / 网络 相关专业本科及以上。 3 年及以上 DevOps / SRE 经验,至少 2 年生产级 K8s 实战。 技术栈硬指标: 精通 Docker / OCI,熟悉 GPU 容器工具链(nvidia-container-toolkit、CUDA 驱动分层安装)。 熟练 Kubernetes / K3s或 HashiCorp Nomad + Consul,了解 CNI / CSI 插件。 掌握 Linux(Debian/Ubuntu)与 Windows系统管理,能编写 PowerShell、Bash、Python 自动化脚本。 深入理解 网络协议栈、WSL2 网络栈、GPU 直通、vGPU / SR-IOV 相关概念与限制。 熟悉 GitOps流程(Argo CD / Flux),会撰写 Helm / Kustomize / HCL 模板。 熟练 TCP/IP、VPN、Overlay 网络、Service Mesh,能排查分布式网络抖动。 有实践 Prometheus + Grafana、ELK / Loki、OpenTelemetry监控链路的经验。 软技能: 系统性思维,能在成本、风险、可维护性之间权衡,输出落地方案。 良好的沟通能力,能与后端 / 前端 / 客户端 高效协作。 具备文档与 SOP 编写习惯,乐于分享并推动团队 DevOps 文化。 四、加分项 参与或主导过分布式调度平台的上线与维护。 有大规模 家庭宽带节点或 边缘计算运维经验。 持有 CNCF CKA / CKAD、HashiCorp Certified: Nomad Operator、AWS/GCP/Azure DevOps 证书。 五、岗位亮点 分布式 GPU 共享先锋项目,挑战家庭宽带 & 高延迟场景下的调度极限。 自主可控的架构设计空间,可主导从零到一的 DevOps 体系。 专属 GPU 资源白嫖权限,让你亲手打造并亲身受益。 如你渴望在 “超大规模异构 GPU 网络”中磨练 DevOps 技艺,参与AI浪潮,欢迎投递!

任务附件 (0)

暂无稿件哦!

预期中标

已中标

0

快去分享,提高任务的曝光率吧