任务详情
项目背景
我们需要你来定义 AI 的编程能力上限。 你将负责设计与实现面向 代码智能体(Coding Agent) 的软件工程评测任务(Repository-level Benchmark)。这不仅是写代码,更是为 AI 构建一个充满挑战的“真实开发世界”。这一系统将重点考察模型在超长上下文中理解需求、定位代码、编写补丁并确保通过单元测试/集成测试的能力。
如果你是对代码质量有极致追求的极客,或者是热衷于开源社区的维护者,这里有最硬核的挑战等你。
【核心职责】
你将扮演“出题人”与“裁判”的角色,构建标准化的测试用例与验证环境:
构建黄金数据集:
基于 GitHub 真实 Issue 与 PR,筛选并抽象出高难度的编程任务(如大型框架迭代、深层逻辑 Bug 修复、第三方依赖冲突解决)。
编写高质量的 Ground Truth,清晰界定问题的复现步骤与期望行为。
环境容器化:
使用 Docker 搭建确定性的代码运行环境,解决复杂的 Python/Java/JS 依赖链与环境隔离问题,确保评测的一致性。
编写环境配置脚本(setup.py, Dockerfile),确保开源项目在沙箱中顺利构建。
验证机制设计:
设计“Fail-to-Pass”验证逻辑:编写能够复现 Bug 的新增测试用例以及修复后的验收用例。
模拟真实开发者的需求文档,强调上下文检索与代码理解的考察。
【岗位要求】
硬性要求
我们需要你具备极强的工程底蕴,以下条件需【满足其一】:
资深实战派: 拥有 5年以上 软件研发经验,具备复杂系统架构设计能力;或是热门repo核心贡献者,是活跃的超级工程师。
精英学院派: QS排名前100 或 国内双一流 高校计算机/软件工程相关专业背景,拥有 2年以上代码实操经验。
热门GitHub核心贡献者,单个项目获得超过100星(需在简历中上传证明链接和截图)
技术栈要求
熟练掌握 主流编程语言及其生态(精通 Python 为必须,熟悉 Java/JavaScript/Go/Rust/C 中至少一种),能够阅读并理解 Django、Scikit-learn、Flask 等中大型开源项目的源码结构;
熟悉 自动化测试框架与方法论,精通 pytest、unittest、tox 或 JUnit 等测试工具,具备编写高覆盖率单元测试与回归测试的能力;
掌握 Git 协作与版本管理,熟悉 Pull Request 工作流,能够熟练处理 Cherry-pick、Revert 以及分析 git diff / Patch 文件;
具备 代码库挖掘(Repository Mining)经验,能从海量 GitHub Issue 中识别出高质量、描述清晰且包含独立测试用例的“黄金问题”;
有丰富的 代码调试与重构经验,能够快速定位跨模块、跨类的逻辑错误,理解静态分析(Linting)与动态分析在修复过程中的作用;
能编写 环境配置与编排脚本(如 setup.py、requirements.txt、Dockerfile),确保复杂的开源项目能在沙箱环境中顺利构建与运行;
对 AST(抽象语法树)与静态代码分析 有一定了解,理解代码补全与代码修改的底层差异。
略知一二,期待合作!
您➕我
十年 Java,期待合作!
您➕我哦
四年Java后端开发,精通达梦、MySQL 、sqlserver 等主流数据库
会docker容器化部署consul、redis、mongo、微服务等。
会使用Linux命令
全栈,python ok ,ai ok
能做的,10年+开发经验 熟悉python Django flask fastapi, 熟悉agent开发 包括function call ,rag 向量数据库等技术,在大厂做过自动测试平台和转发mock平台,985 毕业 大厂经验
符合需求,6+年Python经验,机器学习,深度学习(大预言模型,图像处理,数据处理)
前段:react, vue
后端:node, django, flask
数据库:mysql, postgresql, mongodb
希望联系
全栈开发 可以加我