您的位置:首页 > 任务详情
强化学习研究员
  • 雇主:mike
  • 发布时间:2026-02-10
  • 分类:灵活用工
免责声明 该外包需求信息来源于站外平台,本站仅提供公开信息部分字段展示与订阅服务,更多请查看免责声明。

任务详情

职位详情 预算:16000 RMB(固定价格) | 截止日期:10天 项目概述 将一个学术论文中的深度强化学习(DRL)加密货币投资组合管理系统改造为仅买入的模拟交易系统,并接入 Alpaca 进行模拟交易。原模型中的做空/杠杆操作必须完全禁用。 该系统使用自定义 Transformer 编码器-解码器架构,包含以下创新模块: • Sequential Attention — 上下文感知注意力层,捕捉价格序列的局部模式 • Relation Attention — 跨资产注意力层,捕捉资产间的相关性 • Leverage Decision Layer — 多头 softmax 决策层(需禁用,改为单头 softmax 仅买入) 您的任务是:修复代码使其在现代 Python 环境中运行,移除做空/杠杆机制(转为仅买入),在加密货币数据上训练,并接入 Alpaca 进行实时模拟交易,每30分钟自动调仓。 论文 PDF、源代码仓库链接将在筛选通过后提供给合格候选人。 重要说明:代码需要现代化 原始代码存在以下已知的弃用和兼容性问题,需要修复: • 使用了已弃用的 pd.Panel • 全代码硬编码 .cuda() • 使用了已弃用的 PyTorch 初始化 API • 使用了已弃用的 pandas API 具体的技术解决方案由您决定。 我们提供 • 学术论文(PDF) • 源代码仓库 • Alpaca 模拟交易 API key 和 secret • 目标加密货币列表 技术栈 • Python、PyTorch • Alpaca Market Data API(30分钟 OHLCV 数据) • alpaca-py SDK(下单执行) • Docker(最终交付必须包含 Dockerfile,确保环境可复现) 交付内容 只有所有里程碑均达标,项目才视为成功完成。 里程碑 1 — 代码现代化 + 仅买入回测 修复代码并将模型转为仅买入。完成后我们期望看到: • 代码在现代 Python 环境中正常运行 • 所有弃用依赖已修复 • 杠杆决策层已移除,改为单头 softmax(仅买入) • 损失函数中的做空相关计算已移除 • 在加密货币数据上训练完成的模型 • 回测结果包含:累计投资组合价值(APV)、夏普比率(SR)、卡尔玛比率(CR) • 回测结果需与论文中报告的性能水平一致或合理接近 里程碑 2 — Alpaca 实时模拟交易 将训练好的系统接入 Alpaca,实现自动投资组合调仓。完成后我们期望看到: • 系统每30分钟运行,获取最新价格数据并在 Alpaca 上执行模拟交易 • 完整管道运行:获取K线窗口 → 模型推理 → 输出投资组合权重 → 计算权重差异 → 下单 • 现金仓位正确处理 • 多资产调仓逻辑正常运作 • 所有交易记录包含时间戳、权重变化和运行中的投资组合价值 • 模拟交易结果须表现出模型的核心优势,产出合理且稳健的交易表现。不接受以"市场环境不同"为由解释表现不佳。 里程碑 3 — Docker 化、文档和交付 • Dockerfile:完整的容器化部署,确保即使未来 Python 版本或依赖发生变化,系统仍可复现运行 • 清晰的文档:从零安装、重新训练、启停系统 • 代码整洁、有注释 技能要求 • PyTorch 深度学习(必须熟悉 Transformer 架构、自定义注意力机制) • 强化学习(策略梯度、投资组合优化) • Python 数据处理(pandas、numpy、3D 数组操作) • REST API 集成(Alpaca 或类似交易平台) • Docker • 能阅读英文学术论文和代码 补充说明 • 模型训练需要 GPU(Transformer 架构,80K步,batch size 128)。如果您没有 GPU,可使用 Google Colab 或类似服务。 • 原始代码为单文件约900行,建议在修复过程中适当模块化。 • 表现优秀者有后续付费工作机会。 • 本系统仅用于研究和模拟交易目的。

任务附件 (0)

暂无稿件哦!

预期中标

已中标

0

快去分享,提高任务的曝光率吧