前言
深度学习强大的表征能力使其在多个领域取得了显著成果，在时序领域同样也
有许多模型选择。本文探索了PatchTST、TSMixer、ModernTCN三个近年的
时序深度学习模型在因子挖掘上的运用，它们采用了Patch+通道独立的模型
时序深度学习模型在因子挖掘上的运用，它们采用了Patch+通道独立的模型
设计，骨干网络分别基于自注意力、MLP、CNN机制。
模型特点
本文介绍的深度学习模型以多变量时序类数据为出发点，相比于基于RNN类
的时序模型，最显著的区别在于采用了通道独立的设计，即将多变量时间序列
先拆为多个单变量时间序列，骨干网络的模块分别学习单变量序列的时序、特
征交互以及跨变量的信息交互。这些时序网络在骨干网络的设计上，融合了视
觉领域以及Transformer的骨干网络思路和方法，具有一定参考意义。
因子测试对比
鉴于不同领域时序任务的多样性，我们进一步探索了PatchTST、Transformer、
TSMixer、ModernTCN模型在量价数据集的泛化能力。在中证全指股票池下，
四个模型生成的量价周频因子10日RankIC均达到了10%以上，TSMixer和
ModernTCN的整体表现略优于PatchTST和Transformer；4个周度因子的区间
IC均值分别为10.6%、10.8%、11.0%、10.7%，ICIR为0.83、0.82、0.91、0.88。
不同模型20分组的TOP组超额收益差异较大，四个模型TOP组的年化超额
收益分别为21%、14.28%、22.39%、18.18%；模型设计差异最大的两个模型
的TOP组选股重叠度约为61%；
在2024年初至2月8日区间，四个模型的TOP组超额收益最大回撤表现不
一，分别为4%、5%、7%、21%，ModernTCN模型回撤幅度明显大于其他模
型。
模型消融测试
对TSMixer和ModernTCN模型进行模块剔除实验，无Patch+通道混合模型因
子的RankIC出现轻微下降，但TOP组超额收益表现出明显差异，TOP组年
化收益分别降低了8.07%、5.25%。骨干网络的设计对模型综合表现有重要影
响。
风险提示：
策略基于历史数据回测，不保证未来数据的有效性。深度学习模型存在过拟合
风险。深度学习模型受随机数影响。本文的模型实现和相关文献不完全相同。

相关研究报告

【行业研究报告】-【专题报告】AI+HI系列（2）：PatchTST、TSMixer、ModernTCN时序深度网络构建量价因子

相关图表

其他推荐