前两天,有一位做私募投资的朋友,拿了几个股票指数给我看,问我说“你看这几个股票指数怎么表现这么好?感觉比我的历史业绩好了太多,人家好厉害啊!”
结果,我仔细一看,其中许多指数,很可能都犯了“过度拟合”的毛病,难怪我的朋友感叹比不过这些股票指数。
什么叫过度拟合呢?比如说,一个股票指数的发布日期是2022年,但是它的基日却是2013年。从基日到2025年股票指数上涨了10倍,但是从发布日到2025年只涨了30%。
这里面的问题出在哪儿呢?当这个股票指数在2022年发布的时候,研究人员可能在2022年时,发现了一种在2013年到2022年特别好用的投资策略。
于是,研究人员就依照2013年到2022年最好用的这种投资策略,编制了一个指数。因为这个指数是在2022年发布的、对之前9年的行情已经有了“后视镜”,因此这个指数的发布,过度拟合了过去9年中最有效的投资策略。
但是,当这个指数在2022年发布以后,对于过去的“过度拟合”,并不能成为对未来的有效预测。因此,指数在2022年到2025年,也许就只上涨了30%,远逊于之前9年的涨幅。
在量化投资研究中,“过度拟合历史数据”是最为常见的一种工作失误。当研究人员对历史数据过度拟合时,就很容易得到一种“在过去数据样本中特别有效、但是在未来却失效”的投资策略。
举个形象的例子,“过度拟合”就好比你开车的时候,只看后视镜、不看前面的路。于是,当你在一条笔直的道路上开车时可能毫无问题,但是一旦前方出现急转弯,就有可能翻下悬崖。
有鉴于此,严谨的量化投资分析,都需要考虑各种场合下的策略有效性。
比如,一个策略如果在最近3年有效,那么在10年前、20年前是否有效?如果在消费行业中有效,那么在金融行业、资源行业中是否有效?在熊市中有效,那么在牛市中是否有效?一个策略在中国市场有效,那么在美国市场、日本市场、印度市场是否有效?如果以上的答案是否定的,那么这种差异从何而来?
而错误的做法,则是只要发现一种策略在过去三五年里特别好用,就把大部分资金都投入到一种策略上。
不幸的是,错误的做法往往更加简单、容易找到“看似非常有效”的投资策略、并且在短期可能还真的挺有效(因为历史经常会沿着同样的轨迹、延续那么一小段时间),从而在实际工作中被大量采纳。每当量化投资者偏离这种严谨的工作流程时,往往就会带来糟糕的结果。
比如,在金融类股票不受市场待见的2021到2023年,许多量化研究报告的第一条就是“我们在样本中剔除了金融类股票”。
通过剔除过去表现不好的金融类股票(理由往往是“金融类股票杠杆倍数太高”这类简单粗暴的理由),这些量化研究报告“过度拟合”出了一些在过去表现非常好的投资策略。但是,它们也恰恰剔除了在2023年到2025年最好的投资品种之一。
在数量化研究以外的金融领域,我们也经常看到一些“过度拟合”现象。比如,一些资产管理机构会通过一种“过度拟合”的小花招,来扩大自己的管理规模。
简单来说,这种做法的流程是:首先,发布好多个不同投资方向、不同投资策略的投资产品;其次,在一段时间里,让各个产品自由发挥;最后,找到在过去这段时间里表现最好的产品,由公司的销售部门向中介机构大力推广,用优秀的业绩打动投资者,从而扩大公司的资产管理规模;而至于表现糟糕的产品,则雪藏起来,视而不见。
显而易见,当不明真相的客户拿到这些“过度拟合”的产品业绩推荐材料时,会被这个产品在过去几年里超级优秀的业绩所震撼,从而信任资产管理机构的投资能力。其实,天真的客户没有想到的是,自己中了“过度拟合”的圈套。
所以,当我们在投资工作中遇到“过度拟合现象”时,不够严谨的分析就会让我们错误地把短期特异的现象,视作长期普世的规律,从而做出错误的投资决策。对于严谨的投资工作来说,这种“过度拟合现象”无疑是值得警惕的。
(作者系九圜青泉科技首席投资官)