数据预处理在量化交易中的重要性,就像给赛车加油之前得先过滤杂质一样。没有干净的数据,再牛逼的策略也跑不起来。
首先,市场数据本身就有很多坑。比如股票突然拆股并股,价格直接断层,不调整历史数据回测就全乱套了。还有停牌期间的异常值,不处理的话策略会被这些僵尸数据带沟里。更别说国内T+1制度下,尾盘突然拉升的假突破信号——这些噪音不滤掉,模型会被训练成追涨杀跌的韭菜。
其次,不同数据源的规格得统一。你做跨市场套利,A股用前复权,港股用后复权,期货还用结算价,这数据放一起比鸡同鸭讲还离谱。更常见的还有不同交易所的时区问题,美国夏令时和冬令时切换时,不处理时间戳,跨境策略直接原地爆炸。
再说特征工程。原始价格序列扔进模型和把波动率、动量、偏度这些加工好的因子扔进去,效果差十条街。但加工过程本身就有讲究——标准化用z-score还是min-max?缺失值用线性插值还是向前填充?处理不好就会导致过拟合,实盘时策略表现和回测完全是两回事。
最后说个很多人忽略的点: survivorship bias。你用现在存活的股票回测,那些已经退市的乐视们就被自动过滤了。不处理这个偏差,策略实盘遇到暴雷股分分钟教你做人。
所以真正搞量化的老鸟,至少60%时间在清洗数据。毕竟垃圾进垃圾出(GIGO),再高级的算法也救不了脏数据。
发布于2025-03-31 17:44 中国





