强化学习研究员

您的位置：首页 > 任务详情

强化学习研究员

雇主：mike
发布时间：2026-02-10
分类：灵活用工

免责声明该外包需求信息来源于站外平台，本站仅提供公开信息部分字段展示与订阅服务，更多请查看免责声明。

立即联系发布类似任务

任务详情

职位详情预算：16000 RMB（固定价格） | 截止日期：10天项目概述将一个学术论文中的深度强化学习（DRL）加密货币投资组合管理系统改造为仅买入的模拟交易系统，并接入 Alpaca 进行模拟交易。原模型中的做空/杠杆操作必须完全禁用。该系统使用自定义 Transformer 编码器-解码器架构，包含以下创新模块： • Sequential Attention — 上下文感知注意力层，捕捉价格序列的局部模式 • Relation Attention — 跨资产注意力层，捕捉资产间的相关性 • Leverage Decision Layer — 多头 softmax 决策层（需禁用，改为单头 softmax 仅买入）您的任务是：修复代码使其在现代 Python 环境中运行，移除做空/杠杆机制（转为仅买入），在加密货币数据上训练，并接入 Alpaca 进行实时模拟交易，每30分钟自动调仓。论文 PDF、源代码仓库链接将在筛选通过后提供给合格候选人。重要说明：代码需要现代化原始代码存在以下已知的弃用和兼容性问题，需要修复： • 使用了已弃用的 pd.Panel • 全代码硬编码 .cuda() • 使用了已弃用的 PyTorch 初始化 API • 使用了已弃用的 pandas API 具体的技术解决方案由您决定。我们提供 • 学术论文（PDF） • 源代码仓库 • Alpaca 模拟交易 API key 和 secret • 目标加密货币列表技术栈 • Python、PyTorch • Alpaca Market Data API（30分钟 OHLCV 数据） • alpaca-py SDK（下单执行） • Docker（最终交付必须包含 Dockerfile，确保环境可复现）交付内容只有所有里程碑均达标，项目才视为成功完成。里程碑 1 — 代码现代化 + 仅买入回测修复代码并将模型转为仅买入。完成后我们期望看到： • 代码在现代 Python 环境中正常运行 • 所有弃用依赖已修复 • 杠杆决策层已移除，改为单头 softmax（仅买入） • 损失函数中的做空相关计算已移除 • 在加密货币数据上训练完成的模型 • 回测结果包含：累计投资组合价值（APV）、夏普比率（SR）、卡尔玛比率（CR） • 回测结果需与论文中报告的性能水平一致或合理接近里程碑 2 — Alpaca 实时模拟交易将训练好的系统接入 Alpaca，实现自动投资组合调仓。完成后我们期望看到： • 系统每30分钟运行，获取最新价格数据并在 Alpaca 上执行模拟交易 • 完整管道运行：获取K线窗口 → 模型推理 → 输出投资组合权重 → 计算权重差异 → 下单 • 现金仓位正确处理 • 多资产调仓逻辑正常运作 • 所有交易记录包含时间戳、权重变化和运行中的投资组合价值 • 模拟交易结果须表现出模型的核心优势，产出合理且稳健的交易表现。不接受以"市场环境不同"为由解释表现不佳。里程碑 3 — Docker 化、文档和交付 • Dockerfile：完整的容器化部署，确保即使未来 Python 版本或依赖发生变化，系统仍可复现运行 • 清晰的文档：从零安装、重新训练、启停系统 • 代码整洁、有注释技能要求 • PyTorch 深度学习（必须熟悉 Transformer 架构、自定义注意力机制） • 强化学习（策略梯度、投资组合优化） • Python 数据处理（pandas、numpy、3D 数组操作） • REST API 集成（Alpaca 或类似交易平台） • Docker • 能阅读英文学术论文和代码补充说明 • 模型训练需要 GPU（Transformer 架构，80K步，batch size 128）。如果您没有 GPU，可使用 Google Colab 或类似服务。 • 原始代码为单文件约900行，建议在修复过程中适当模块化。 • 表现优秀者有后续付费工作机会。 • 本系统仅用于研究和模拟交易目的。

任务附件 (0)