【成都全职】【分布式AI算力平台】【股权激励】运维工程师

您的位置：首页 > 任务详情

【成都全职】【分布式AI算力平台】【股权激励】运维工程师 | DevOps

雇主：mike
发布时间：2025-05-13
分类：灵活用工

免责声明该外包需求信息来源于站外平台，本站仅提供公开信息部分字段展示与订阅服务，更多请查看免责声明。

立即联系发布类似任务

任务详情

我们是一个AI算力相关的创业团队，团队中有前大厂AI技术负责人（合伙人），现招募一个对AI算力方向感兴趣的全职运维，根据能力可提供灵活的薪资+股权激励组合。一、岗位使命负责平台从本地客户端节点到云端控制面的整体交付、Docker镜像制作、持续集成、持续部署、监控运维与安全治理，确保平台广域网环境下的稳定、高效与可扩展。二、核心职责基础设施即代码（IaC）: 设计并维护跨云/本地混合环境的 IaC 模板（Terraform / Pulumi / Ansible），覆盖控制平面与客户端节点部署。自动化生成客户端镜像的节点启动脚本与健康检查。 CI/CD: 搭建以GitLab CI / Jenkins 为核心的流水线，自动完成 GPU 容器镜像构建、签名、漏洞扫描、发布。支持蓝绿、Canary 发布与版本回滚，保障不停机升级。容器编排与调度: 与平台研发团队协作，落地集群部署、运维，编写 Job / Helm / HCL 模板，优化 GPU 资源调度策略。研究并实现节点与云端集群的双向心跳、带宽、延迟感知调度。 AI模型相关预配置Docker镜像制作。网络与安全: 设计端到端加密与零信任认证（OAuth2 / SPIFFE）。管理负载均衡、服务网格（Istio / Consul）和动态 DNS，提高跨 NAT / CGNAT 的连通性。可观测性: 部署 Prometheus / Grafana / Loki / Tempo，建立节点-容器-任务三级指标与日志链路。构建 ELK / ClickHouse 日志分析平台，编写告警规则（Alertmanager / OpsGenie）。故障应急 & SRE（非必需）: 制定 SLO / SLA；编写容量与灾备方案，多地域冗余与自动故障迁移。参与 7/24 值班、演练 Chaos 工具（LitmusChaos / ChaosMesh）。合规与安全治理（非必需）: 推行 DevSecOps，嵌入 SBOM、CVE 扫描（Trivy、Grype），输出企业级基线。配合法律团队审查容器镜像许可证等合规风险。三、任职要求学历与经验: 计算机 / 网络相关专业本科及以上。 3 年及以上 DevOps / SRE 经验，至少 2 年生产级 K8s 实战。技术栈硬指标: 精通 Docker / OCI，熟悉 GPU 容器工具链（nvidia-container-toolkit、CUDA 驱动分层安装）。熟练 Kubernetes / K3s或 HashiCorp Nomad + Consul，了解 CNI / CSI 插件。掌握 Linux（Debian/Ubuntu）与 Windows系统管理，能编写 PowerShell、Bash、Python 自动化脚本。深入理解网络协议栈、WSL2 网络栈、GPU 直通、vGPU / SR-IOV 相关概念与限制。熟悉 GitOps流程（Argo CD / Flux），会撰写 Helm / Kustomize / HCL 模板。熟练 TCP/IP、VPN、Overlay 网络、Service Mesh，能排查分布式网络抖动。有实践 Prometheus + Grafana、ELK / Loki、OpenTelemetry监控链路的经验。软技能: 系统性思维，能在成本、风险、可维护性之间权衡，输出落地方案。良好的沟通能力，能与后端 / 前端 / 客户端高效协作。具备文档与 SOP 编写习惯，乐于分享并推动团队 DevOps 文化。四、加分项参与或主导过分布式调度平台的上线与维护。有大规模家庭宽带节点或边缘计算运维经验。持有 CNCF CKA / CKAD、HashiCorp Certified: Nomad Operator、AWS/GCP/Azure DevOps 证书。五、岗位亮点分布式 GPU 共享先锋项目，挑战家庭宽带 & 高延迟场景下的调度极限。自主可控的架构设计空间，可主导从零到一的 DevOps 体系。专属 GPU 资源白嫖权限，让你亲手打造并亲身受益。如你渴望在 “超大规模异构 GPU 网络”中磨练 DevOps 技艺，参与AI浪潮，欢迎投递！

任务附件 (0)