电鸭
7人浏览/3人投稿
3天前
待托管赏金
我们是一个AI算力相关的创业团队,团队中有前大厂AI技术负责人(合伙人),现招募一个对AI算力方向感兴趣的全职运维,根据能力可提供灵活的薪资+股权激励组合。
一、岗位使命
负责平台从本地客户端节点到云端控制面的整体交付、Docker镜像制作、持续集成 、 持续部署、监控运维与安全治理,确保平台广域网环境下的稳定、高效与可扩展。
二、核心职责
基础设施即代码(IaC):
设计并维护跨云/本地混合环境的 IaC 模板(Terraform / Pulumi / Ansible),覆盖控制平面与客户端节点部署。
自动化生成客户端镜像的节点启动脚本与健康检查。
CI/CD:
搭建以GitLab CI / Jenkins 为核心的流水线,自动完成 GPU 容器镜像构建、签名、漏洞扫描、发布。
支持蓝绿 、Canary 发布与版本回滚,保障不停机升级。
容器编排与调度:
与平台研发团队协作,落地集群部署、运维,编写 Job / Helm / HCL 模板,优化 GPU 资源调度策略。
研究并实现节点与云端集群的双向心跳、带宽、延迟感知调度。
AI模型相关预配置Docker镜像制作。
网络与安全:
设计端到端加密与零信任认证(OAuth2 / SPIFFE)。
管理负载均衡、服务网格(Istio / Consul)和动态 DNS,提高跨 NAT / CGNAT 的连通性。
可观测性:
部署 Prometheus / Grafana / Loki / Tempo,建立节点-容器-任务三级指标与日志链路。
构建 ELK / ClickHouse 日志分析平台,编写告警规则(Alertmanager / OpsGenie)。
故障应急 & SRE(非必需):
制定 SLO / SLA;编写容量与灾备方案,多地域冗余与自动故障迁移。
参与 7/24 值班、演练 Chaos 工具(LitmusChaos / ChaosMesh)。
合规与安全治理(非必需):
推行 DevSecOps,嵌入 SBOM、CVE 扫描(Trivy、Grype),输出企业级基线。
配合法律团队审查容器镜像许可证等合规风险。
三、任职要求
学历与经验:
计算机 / 网络 相关专业本科及以上。
3 年及以上 DevOps / SRE 经验,至少 2 年生产级 K8s 实战。
技术栈硬指标:
精通 Docker / OCI,熟悉 GPU 容器工具链(nvidia-container-toolkit、CUDA 驱动分层安装)。
熟练 Kubernetes / K3s或 HashiCorp Nomad + Consul,了解 CNI / CSI 插件。
掌握 Linux(Debian/Ubuntu)与 Windows系统管理,能编写 PowerShell、Bash、Python 自动化脚本。
深入理解 网络协议栈、WSL2 网络栈、GPU 直通、vGPU / SR-IOV 相关概念与限制。
熟悉 GitOps流程(Argo CD / Flux),会撰写 Helm / Kustomize / HCL 模板。
熟练 TCP/IP、VPN、Overlay 网络、Service Mesh,能排查分布式网络抖动。
有实践 Prometheus + Grafana、ELK / Loki、OpenTelemetry监控链路的经验。
软技能:
系统性思维,能在成本、风险、可维护性之间权衡,输出落地方案。
良好的沟通能力,能与后端 / 前端 / 客户端 高效协作。
具备文档与 SOP 编写习惯,乐于分享并推动团队 DevOps 文化。
四、加分项
参与或主导过分布式调度平台的上线与维护。
有大规模 家庭宽带节点或 边缘计算运维经验。
持有 CNCF CKA / CKAD、HashiCorp Certified: Nomad Operator、AWS/GCP/Azure DevOps 证书。
五、岗位亮点
分布式 GPU 共享先锋项目,挑战家庭宽带 & 高延迟场景下的调度极限。
自主可控的架构设计空间,可主导从零到一的 DevOps 体系。
专属 GPU 资源白嫖权限,让你亲手打造并亲身受益。
如你渴望在 “超大规模异构 GPU 网络”中磨练 DevOps 技艺,参与AI浪潮,欢迎投递!