任务详情
提高transformer预测泛化能力
优化现有transformer模型训练架构和参数,提高股票预测泛化能力。使用python代码、TensorFlow架构,有数据。
一、验证方法
鉴于序列数据泄露会导致准确率等常用训练指标虚高,验证指标定为模型在新数据上预测前100名的命中数。
首先,在没有数据泄露状况下,观察新模型的准确率和F1值;其次,甲方用测试数据和预测代码初步确认结果;最后,双方用统一的测试数据和预测代码,共同认定结果。
二、预算方法
选取3个总正例数大于10的新数据集测试点(不含训练数据和验证数据),同一条件下(同一数据集和指标),预测命中数平均每增加1个,增加预算100元;平均命中率高于50%后(命中率=前100名命中正例数/总正例数),平均每增加1个,增加预算200元。
前100名中全部命中,预算3000元。如果全部命中,且在前50名,预算6000元。如果全部命中,且在前20名,预算1万元。
目前的命中率,根据数据集的不同,在18%-38%之间。下面3个测试日期,前100名命中情况如下:2025年1月14日,15个命中3个;2025年2月21日,17个命中3个;2025年3月6日,16个命中6个。
三、数据集和相关代码
(一)训练数据集
训练数据集是5分钟kdj的j线不同周期的指标组合,有5个指标值和1个时间序列值,共6列,窗口宽度为48个周期,也就是48行,pkl格式,样本约200万。
(二)验证数据集
验证数据集是txt文本数据,来自步步汇盈股票软件。
(三)相关代码
原始训练代码和预测代码。原始训练代码有初步训练日志。
验证数据集和预测代码在验证阶段共享。
四、时限
2周左右。