欢迎回到哈扣财经通事给你又硬又干的财经思维今天是 EP95 你找的不是因子是杂讯因子动物园的成因今天的大纲有四个点第一个是因子投资的步骤第二再访因子动物园这动物园是怎么产生的第三重点在建构因子而不是发现模型第四是我们的心得
欢迎收听 Hardcore 财经通识本节目将提供给你新闻和网络中接触不到的财经知识让你吸收到硬核又干货的深度观点巨档韭菜更快实现属于你的财务自由
哈扣 Podcast 内容不代表任何来宾所属机构亦不构成任何投资意见提供的资料以及资讯不应被视为投资税务 法律 会计 规定或任何其他意见所提供的任何资讯和工具不应延伸解释为哈扣 Podcast 与任何第三方对任何证券或金融工具的邀约邀请 诱因 意见 建议或游说您需自行依据自身的财务状况与投资目的决定投资保险策略或是是否购买任何商品或服务
把麦克风交回给帕苦对就是我觉得原本今天闲聊我只有写一些其他的东西但最近因为我们的流量稍微好了一点对然后就觉得其实不错就是有舌有德德就是当然自然就是流量变多了那个舌的地方就是我们最近我的身心理状况显著变差了就是大家知道吗你看那个后台什么牛鬼蛇神都会给你看就是大家的那个留言可能不会每个人看完但我觉得就是
我们就是刚开始做就很犯贱就每一条都看完这样子每一条都看完然后就会走心就会走心这样子走心然后有的是建设性批评啦那我觉得这个就还好就是跟我讲哪里检测啊哪里怎么样我就还好那有些真的是谩骂真的是 literally 谩骂然后我看完就会觉得我自认算是一个很 tough 的人但是你看第一则就哦嗯就是 OK 第二则 OK 第三个就
Gan!就那種感覺所以我後來去問了大前輩就是某就是前知名 Podcast 主持人那個 Leo 我就去問 Leo 問他說欸你怎麼防止這種就是評論內耗結果你知道他給我答案是什麼嗎
不知道他給我答案是每一次看都走心一點辦法都沒有對真的假的啊對他說他做了那麼久他做頻道做了四五年他還是看了還每次都走心所以他後來就要被就是我們之間還有一個那個
同事他就會說都會被他阻止說不要再看那些評論因為看了對你沒好處對這樣子然後就是對就是我最近遇到一個問題那我在看就是可能就我對於流量沒那麼關注的時候我可能就會就會不看了對那這是一個小分享這樣子沒有要請雷就是大家給的意見都很好對除了蔓蔓以外蔓蔓就是啊隨便你啦就是祝你幸福這樣子對好那
但是呢就是这样跌跌撞撞我们也走到快 100 集了一个对一个超深印转场对所以 100 集算是一个坎啊其实老实讲我们出的所有集数应该加起来也超过 100 集了不过就算了就是到我们正式集数 100 集的时候就可以做一些就是粉丝向的东西 aka 水节目所以我们会开始在可能在这周或下周就会开始 po 那个
100 集的 AMA100 集的 AMA 然後大家幫我踴躍回顧一下不然的話就是你不回的話我就做不出節目那我就會不知道要講什麼非常的痛苦這樣子好那這是第二件事欸翔那你你 AMA 是要放在哪裡那個連結啊連結會放在 YouTubeYouTube 或是那個粉專也會 PO 啦然後會放在放在那個 Spotify 那些都會都會放這樣子對好的好的就是 AMA 對然後匿名啦所以大家想想要講什麼對然後要那個也可以就是
没有啊不知道说什么好那这是以上两个点好本日闲聊环节好对那那回到这几主题就是就是最近反正我一直在看一些因子投资的一些方法论然后也写了就是一些口不是不是一写是很多口写很多口然后又看了几本书然后就有一些新的心得来分享这样子对那我就因为我这些心得来重新理解说就以前我们在很早之前有讲过因子动物园嘛
因子動物園這件事情到底是怎麼發生的然後以及我自己在做真的要做組建一個因子 portfolio 的時候有一些想感想可能是市面上沒有那麼常感覺到就是可能是真的在做的人才會有些感覺的這樣子對那我會來分享這些事情然後以及在第三個點就是之前前幾年那個 ML 剛興起的時候就是那個嘛大家都對於會不會 ML 就可以 solve the market 就是可以找到一些 Alpha
然後傳統仔就會跟你說還沒沒好啦沒好啦沒好啦那大家在吵那個原因當初看是覺得說一些
就是在吵架那现在看就是会慢慢发现出他们利润的论点在哪里那我再最后也会分析一下这样子对好那我们就进到直接进到第一个部分就是 OK 其实因子投资简单四步骤好其实大家我刚刚讲那么难其实因子投资非常简单好为什么因为只有四个步骤就可以赚钱了好就是第一个步骤就是你神奇的找到一个这个商号可以解释不同标的之间报酬差异的因子什么意思呢就是今天这个因子可能台积电是 maybe100
然后中华电信是 20 好了那你这时候找 Long 台积电,秀中华电信,那你就可以赚钱这叫做因子,对就是平均来说会赚钱这样子好,那你找到这个因子以后你要怎么办呢你就只要把它这个因子假设这个值可能会像中华电信是 20 嘛台积电是 100 嘛,那联发科是 60 嘛然后还有什么,找个新一点的
伪创可能是 40 或 hiver 那你就可以把这个因子对每一档股票可能有 100 个股票嘛就是跑回归对不对那可能就是如果假设这个因子那么有效就可能是什么这个因子很高的时候预期报酬就很高那这个因子很低的时候预期报酬就会变成负的那这个学出名字叫 aka cross sectional regression 那你就可以把预期报酬给算出来嘛
对不对好那你这把预期报酬呢那你就把你有那个因子的也有因子的预期报酬你就可以把因子的残差 aka 就是 variance 跟那个个体之间的那个没有办法被解释的个体残差也算出来然后你就可以调整调整然后根据这个变异数和预期报酬你就可以决定你要下多大然后这四个步骤做完夜你就可以开始对了躺着等发财让我问一下太快了
等一下我这有点点不懂这边的因子残差跟个体残差调整调整你是要调整什么东西调整它的 variance 就是因子是这样子你不能期望因子每一期都可以带给你预期报酬是一样的对不对可能有时候这个报酬因为 momentum 在牛市的时候给你的很好那在熊市的时候给你的大点对不对那你希望要做的是什么就是那你这个动这个代表说你预期报酬会变动那有变动的时候就会有所谓的残差对不对
对不对 OK 就是会有 variance 这件事情嘛有 variance 就代表你的因子却不是固定的那你把这个残差求出来是不是在 3 号在某种程度上可以让你在因子不稳定的时候想办法去稳定它想办法去稳定它或是想办法对它做调整你就是希望调整那个线让它的总体残差是加起来最小的像这样你没办法调整那个残差你只能适应它你去适应那个残差让你
在下注的时候假如这个因子现在很不稳定你就不会下注下那么高吗对不对在某种程度上这样对例如说这个东西不稳定的时候可能今天赚明天赔今天赚明天赔你希望那个模型可以自己适应它要把这个因子就是当做没看见对不对所以说也就是说你假设你今天发现了一个不稳定的东西那你希望你调整出来的这个模型是会把这个影响压到最低的像这样
可以说是这样,就是在某个过程当中你会把这个因子抛弃掉就是你不要看这个因子去把它给下注下起来这样子这是一些简单的说法但我可以讲的这么模糊就是因为大家都知道这个事情一点都没有那么简单嘛我讲那四个步骤每个都要写两百行扣不止,可能不止,可能我写很多扣对,那可是这就是一个所谓的实务上的因子投资一个最简单最简单的一个 framework 最简单的 framework 这样子,对,那
大家听了我讲很复杂,但是我其实只要讲的一件事情,其实我把第一步,第一步通常是最重要的,那我刚回想一下第一步是什么,就是你 3 号找到一个可以解释不同标的之间报酬差异的因子,这也是应该是最难的吧,对不对?那我们可以除了这个因子以外,就原谅是说假设你已经,maybe 你今天拔杯,3 号这个拔杯可以就是预测明天报酬,那你其实不用后面这些预期报酬,什么一大堆乱七八糟的东西,其实你还是可以 trade 嘛,
你还是可以去用这个交易嘛例如他今天这个寶貝是正的明天台积电就涨那你是不是这个时候拿去买台积电就好了那这时候是反的你就拿去就是空台积电会卖掉这样子如果你今天这个因子找的好是不是后面那些东西其实都不是问题为什么因为后面的那些东西为什么会重要是因为你的因子不够好嘛对不对你的因子报酬不稳定嘛不稳定的时候所以才需要说我要把它调整一下因为这个因子有的时候有效有时候没有效我需要调整一下
让他就是相对来说可以给我的报酬比较稳定所以你才要去算残差嘛对不对那如果假设这个因子每天就是我们就只要正负我们不需要涨几趴正的时候台阶段永远都涨负的时候台阶段永远都跌那你还需要做后面那么麻烦的事情吗其实不需要其实不需要嘛对不对所以我们先不管后面像那个预期报酬还变异数矩阵这些东西这都是一些你不管你要线性啊还是要非线性啊还是要更复杂的算法其实这是我们讲的这是所谓建模的部分
它是把模型建立起来的部分但是模型建立起来的重点是什么你要放东西进去对不对因此就是那些要把东西放进去的最重要的成分就是你有一个锅子你有厨具你现在要开始煮菜那你总要把食材放进去你是否想过法国总是那么浪漫但其实在越南这一切也能实现
有一个锅子你有厨具了你现在要开始煮菜那你只好把食材放进去嘛对不对
那现在的问题就是这样我们到底要怎么找出那个神秘可以预测未来报酬的因子或是你可以讲的就 predictor 这才是最重要的对不对就预测未来报酬这样子对好那在讲这一切开始之前我可以跟你讲以前的人是怎么做的以前人是怎么做的好 Winnie 你有上过我要当考考男的来你有上过那个金融回归或时间回归或什么投资组合理论什么之类的东西吗
那个吧 Time Series 是时间回归吗 Time Series 是时间回归嘛那有在有在讲有在讲那个最经典的什么 FarmarFarmarFarmarFarmarFarmarFarmarFarmarFarmarFarmarFarmarFarmarFarmarFarmarFarmarFarmarFarmarFarmarFarmarFarmarFarmarFarmarFarmarFarmarFarmarFarmarFarmarFarmarFarmarFarmarFarmarFarmarFarmarFarmarFarmarFarmarFarmarFarmarFarmarFarmarFarmarFarmarFarmarFarmarFarmarFarmarFarmarFarmarFarmarFarmarFarmarFarmarFarmarFarmarFarmarFarmarFarmarFarmarFarmarFarmarFarmarFarmarFarmarFarmarFarmarFarmarFarmarFarmarFarmarFarmarFarmarFarmarFarmarFarmarFarmarFarmarFarmarFarmarFarmarFarmarFarmarFarmarFarmarFarmarFarmarFarmarFarmarFarmarFarmarFarmarFarmarFarmarFarmarFarmarFarmarFarmarFarmarFarmarFarmarFarmarFarmarFarmarFarmarFarmarFarmarFarmarFarmarFarmarFarmarFarmarFarmarFarmarFarmarFarmarFarmAFarmarFarmAFarmAFarmAFarmAFarmAFarmAFarmAFarmAFarmAFarmAFarmAFarmAFarmAFarmAFarmAFarmAFarmAFarmAFarmAFarmAFarmAFarmAFarmA
Farmafrench 它是不是就是有三个因子嘛它今天就是说它今天发现市场风险因子然后规模因子然后跟价值因子对吧就说这三个因子你把它放到它那个模型里面然后它就是用这三个因子去解释说你今天放入例如说你知道这个公司它的市场风险因子多大你知道它今天的这个价值因子是在哪一个段位你知道它的这个规模因子在哪一个段位你就可以去推算说它之后的这个报酬应该可以是多少
对然后他把解释叫风险风险益酬吧但如果你去看他每首拉丁剧你会发现他有很多的小巧思好第一个问题他们当初这几年的做法是不是说 ok 像是我们刚刚讲你刚讲市场因子我就把
我讲那个市账上面值上面因子好了就是什么上面价值高的价值因子对价值因子我就分三组一个就是什么那个市值很高上面价值比较就是那个比例相对比较低的然后一组就是中间的一组就是最高的然后我去建构这个因子然后就去干嘛做一件事就跑回车就把它分成三分之一然后 long 最上面一层 show 下面一层对不对然后就发现说它有超额报酬
好 这是最精华的部分所以他在 3 号他在一个灵感之间他就决定要这样去分组那为什么不是一个灵感之间对 为什么不是分例如价格高的分一组价格中的分一组价格最低的分一组为什么不是用这三个 portfolio 去跑为什么是偏偏是市场值因子
为什么哦好等一下我觉得是这样子吧就是因为你他你今天这样说你今天你这个 paper 就是想要跟你讲说我发现某一个音质有效所以我想要证明这个音质有效所以我就跟你讲说利用这个音质去分成三个组然后我们去跑会发现有一个好的效果所以最后就证明这个东西有效
OK 非常 exactly 是这样子去讲的对不对所以他后面的制作的所有的东西都是为了去佐证他这个东西嘛所以就回到我们刚刚讲的那个议题他 somehowmagically 方切一个因子可以减少市场报酬因为他跑了回归以后他知道以后他就把它拿去跑了然后就证明出这个因子有效我们应该拿来预测市场当然他 FarmaFrench 的本意不是拿来预测市场因为他觉得市场是永远都是有效率的他觉得那是风险易手不是今天的重点那是不是以这样的角度去出现去做的这整个研究都是以这样的角度去出发的
所以他是以這樣的角度去出發的,所以在某種程度上,可是當你真的要實作的時候,你就想說好,Farmer French 都可以發 paper 了,那我是不是照著 Farmer French 的步驟,你來做一個一模一樣的事情,我也可以發 paper,對不對?反正我就找到一個神奇的因子,然後去分組,分組完以後,我就把最上層的弄起來,最下層的秀起來,然後去找說有沒有那個超額的因子的異種的,
呃 有没有超额的报酬有的话就发一篇 paper 没有的话就算了 对不对所以在某种程度上这就是一个学界惯用的我们讲的产出新的因子的一个方式 对不对因为你的重点是什么你的重点是这些学者他们真的目标是拿这个去 trade 吗真的拿去交易吗不是啊 他们只是要做出这个效果就是好像真的有这个效果那我们就可以拿来发一篇 paper 发一篇 paper 我就可以怎样我就可以升等我就可以当正教授我就可以去领薪水这是他们的一个最主要的目的
好,那你覺得這樣的一個 incentive 會造成什麼樣的事情?對阿,我覺得應該這樣講吧,就是呢其實我覺得在 paper 裡面它可能漏掉很多前期的東西我不確定,例如說我今天發現某一個因子可能有用然後之後我給你看我的回測結果然後證明它真的有用對吧?但是
不知道就是你是不是前面其实我今天就是说我可能看了我猜过 100 个不同的 factor 然后我猜到就是诶这个中了所以我就特别去讲说这个有对懂我的意思吗就是我可能我你说的完全正确啊就一样嘛就是大家都会说正正常做研究方式是什么啊你有个假设你去验证你的假设那你假设不 value 了那你就是抛掉然后你就是每天都想到一个新的假设再去做这个验证你觉得实务上可能就这样去做吗
不可能啊,就是每個人都知道不可能,你做的一定是什麼,你先把這個數字拿去湊一湊,然後發現有效果,那我再回來幫他編一個解釋。通常都是一個最主流的做我們講的試錯的方法,但是就像你講的,我這樣做一百次、兩百次以後,會不會有一個機會真的被我賽中,但是它完全其實是沒有用的。就是它們有相關性,可是它們並沒有因果性,是這樣唄。沒錯,它就是相關,變成你傷耗在這個期間,而且是這個期間有相關,甚至不是未來的相關。
對我跑了 40 年 50 年後總有機會在我試的 2000 次以後終於試出一個因子然後我就把它命名為叫什麼帕苦因子那原因是什麼我就瞎掰一個理由這樣子對好那這是一個食物操作上出現問題
那你就想全世界几千个财务的研究人都在做一样的事情都想发 paper 对不对但是这是其中一个问题那这个问题除了就像我们刚刚讲其实就是 pehacking 现象就是不停的在一直试错一直试错去产生新的因子那另外一个问题是什么好那你假设今天的 benchmark 都是我们讲的 maybe 就是最经典的就是 pharma fringe is three factor 然后还有 five factor 我的 benchmark 因为没有人知道这个所谓的最完美的现在最完美的 benchmark 的模型是什么样子
因為大家都是以三因子模型或五因子模型做出發為什麼因為沒有人知道這全部的現在市面上最有效的模型是哪一個對不對沒有人知道我在做研究的時候我只會看 paper 看 paper 那有些人發現一些新的因子有些人有 include 有些人沒有 include
所以我做最好的做法我要怎麼證明我的音質有用一定是跟現有的音質模型去比較我比較一定是最經典的那個對好那假設我今天是一個獨立研究者我發現一個 Momentum 叫做 Momentum A 音質我講了一個解釋那剛好你在同時時間你發現一個類似的現象只是你的發現機制不太一樣那你就叫做 Momentum A 音質那你也啪哩啪哩啪哩講一大堆然後就是 OK 這是一個新的音質那在本質上來說請問這兩個音質有差很多嗎
哦我懂意思了嗯哼嗯哼对这其实其实差的东西他们其实在讲的事情是同一件事情只是用了不同方式说出来然后刚好那个 benchmark 都又没有 include 这个东西所以就变成你可能发了两篇 paper 但其实有用的因子就是那一个嘛嗯是这样同样的现象可以无限的排泄组合下排列组合下去嘛对不对嗯那就会出现说哎那
不同的人研发出来的因子在某种程度上其实在很大机会会撞在一起虽然它们的名字不一样但是因为彼此没有跟彼此比较过所以我根本不确定说这两个因子到底谁的效果比较好或者它们两个根本代表的是一件是同一件事情嘛对不对好那这是其中一个问题那就变成说那这个问题造成什么就是因子的效果每个因子的效果可能都没有你想象中那么好因为你在做实物的人会发生这种事情
我今天要收集的因子,收集四五个,六个,七个,八个,九个,十个,第十一个开始。诶,奇怪,为什么这个因子好像 paper 说有效,你放进来都没有效。因为很简单嘛,paper 没有彼此互相比较过嘛,你既然是你这个 practitioner,你真的把它放进去比较,你会发现干,真的没有比较好,所以你是那个验证的人,所以你找到一个因子,那个因子是没有用的因子。这是一种做法。好,那再来喔,那,
回到刚刚一开始我们讲的问题那加上这个背景是什么大家都疯狂的测了一百次一千次以后把它弄出来的因子所以你最糟的状况不但是说这个因子这个因子可能效果没得好最糟糕的情况是这个因子根本是个杂虚是大家用 P-hackingParameter hacking 不停的试不停的试不停的试不停的试把它试出来的做法对不对好那试出来以后
第一,讲弱一点说,如果它没有效的话,那它大概就是怎样?它就是,我们讲次差的情况是什么?就是这个因子可能已经,现在的这些食谱已经做得够好,你这个新的材料加起来并没有让你的料理变得更好吃。
那顶多就是没效,让你模型歪掉一点点。对,那另外一个我更糟的状况是什么?它从头到尾都是一个杂讯,它一点屁用都没有。对,那放进去以后它只会损害你因子的报酬。对不对?那整个效果变差。对,整个效果变差,这样子,对不对?好,那所以这也造成一个问题,就是
再回到一开始的做法我们是不是 long showlong showlong showlong 前面 33%show 后面 33%他是不是也发生一个问题就是说你怎么知道这 33%只有包含你想要的那个因子我举个例子市值高的对市值高的是一个那这样可是市值高的里面会市值高市值低的里面会不会也有 momentum 很强的
会不会有 momentum 差的那发码的做法很简单我就是不停的为你 sub sample 就是现在就是我们叫 double sorting 就是前面 33%是我们讲的市值高的那现在 momentum 强是不是会有另外 33%的人出来对不对那我是不是就把这 33%的 end 就是你要属于这个 33%也要属于那个 33%我才会把它拿出来做一个分组对啊对啊它就这样不停的分组分组分组分组分组分组分组但你会很快发现一个问题
哪有那麼多股票可以這樣分假設你每個都分你有兩個 factor 你有三張股票那 339 種嘛那 9 種多少 9 種就
33 有 9 个组合嘛每一个 factor 是 3 个然后你有两个那就是 9 种嘛总共是 9 种啊像是说 27 啦 4 个 815 个 273 所以你到 5 个的时候你已经 273 了那 273 每一档股票切出来每国几个股票
就切出来那个样本数已经很小很小很小很小而且你越切越不稳定越切越不稳定所以这是它的遇到一个困境为什么越切会越不稳定就是 curse of dimension 就是你没有那么多 sample 让你放到你那个区间里面去啊所以你的 sample size 就不够大啊所以你就切切切就像你把
你把一块豆腐在不同的边上面疯狂切以后那是不是每一个地方每个下刀地方那个豆腐就越来越小块越来越小块越来越小块就越来越散越来越散越来越散就没有代表性对不对嗯了解对那这样的情况下就变成什么就是他其实很难回答一个问题就是我今天问你说这个动能因子到底可以我这个动能的因子增加一个 percent 到底可以为我投资组合的报酬增加几个 percent
其实你很难回答这个问题因为你当初在收停的时候你不是以一个跑回归方式去做你是先分组你不停的先分组分组分组切切切切切切切你每一个组合都包含了很多不同的意义很多不同的东西那你真的去跑这个然后你再用这个投资组合回过头来去推你所谓的因子的 loading 的时候你其实没办法回答一个问题就是说我今天到底这个上升 1%我对于我这个 A portfolio 到底可以造成多少影响其实不太能其实不太能你很难去独立那个影响出来
好那这都是一些所谓会发生的问题那这些都是我们讲的在食物过程中会遇到的一些问题那最后就会发生一件什么事情就是好第一步因为大家要发 paper 所以我不停的在试很多很多不同的东西那试出来我就给它命名那命名以后然后就它就是一个多的一个因子对但是大家其实没有很好的去检测说彼此因子之间的观点性所以就变成说很多因子其实是类似的或是甚至是杂讯
好那最后一个点就是说那他们做的研究方法本身就会有一些我们讲的统计上统计的一些边边角角的问题造成他这个东西其实不是那么有说服力好那每个人都有些 fancy 的东西 fancy 的因子都放在这个动物园里面大家看每个都觉得好心情好厉害但真的要拿去用的时候就发现一件事情根本用不起来你 either 没办法 beat 费用或是你 either 发现你的 out sample 就是烂的一坨屎所以在更一些极端例子里面
在这些因子只要换一个起点这个资料 dataset 只要换一个起点它就完全没用了你说时间的起点吗对换一个时间起点例如今天是 1970 年到 2010 年那我只要换到 1960 年到 2020 年保险没效了看起来就一坨杂水对那对于实务者来说这样的问题是什么我今天在做一个东西我是要真的把钱花下去的东西就你跟我讲说这些东西每个都是有点像是 data mining 或是 overfitting 的一些结果那这怎么用
这其实就是那个最佳组合其实根本不在这些学术论文里面因为你跟他们就是这个没有被彼此很严格的去验证这其实就造成一个问题就是你真的去找那些因子去做的时候往往效果都不如预期而且以一些越报酬的数据来讲你这个报酬你要落后几年才会发现它其实是不 work 的如果真的把它放进去你把一个没用的因子放进去像价值因子这种所谓我们就被讲测试很久很久以后的
大家都覺得有效的東西它也可以七年都沒有效那你直接想要放入一個存雜序的因子你要不要等七年才發現喔這個因子沒有用所以我把它拿出去來不及你被胎討了已經沒救了對你已經被沒救了所以這也是一些我們講因子動物園造成一些問題跟一些背後造成的原因這樣子對不對但是等一下我想問個問題
我就是好奇呢因为像我们现在讨论其实是说学界他们是怎么去做研究的嘛还有说他们最后的目的其实是因为他们可能想要发 paper 他们想要有新的观点所以他们就会去试一直去试不同的东西但是你在实务上可能发现它不 practical 但如果会对业界有影响的话是不是就表示说其实业界也蛮依赖学界这些 paper 所以他们很常会去采用他们的东西才会导致说就是采用之后却不 work 的现象
這也是一個點,其實有兩種組合一種組合是學界真的有用的已經沒用了就是大家都已經發現了,他就把它放到模型裡面大家都要用,就是開始弱化這也有一篇很有名的 paper 在講說一個新的因子被發掘出來的時候那個因子的效果馬上弱化大家都用喔對大家都用,但另外一種可能是大家有沒有人用不知道,但他的效果就一直很弱但你其實都會被分類在那個因子被發表出來就沒用的那個群裡面因為你不知道嘛,你不知道是因為大家都在用所以他沒用還是他本來就沒用
这是一个 poll 你是看不出来的所以这就是一些相关衍生出来造成的问题这样子你会发现很有趣就是在这个所有的假说里面其实在后面的什么例如你在分组 double sorting 或者是你把一些 benchmark model 放进来再继续做一些跑分跑回归那些东西那其实是很后端的事情
其实最重要的都是什么就是当初你决定说你觉得这个因子新的时候有效的时候到底是为什么你到底是怎么检验它有效这件事情就我刚刚讲你 long show portfolio 其实不够好你 long show portfolio 你会残杂很多的其他因子进去你又没办法滤干净你怎么会知道这个东西有用或是没用对不对你怎么会知道这个东西有用或没用但是在发 paper 的时候大家基本上那个都是一个我们讲很标准的做法所以在很多论文里面其实都是采用这样的做法去做的时候那你很难相信说
呃这些东西是真的有用吗除非你真的去试它对不对嗯好那这是一个点那假设 given 说你有这么多因子然后里面有些东西有些东西没用的时候你再去 fitting 那个 model 的时候基本上你是很有危机的嘛因为你等于在在这个很大的 model 里面放了好几个可能有用可能没用的东西对它只会增加你模型的不稳定性但你把它放进去但你放进去所以那你放进去理由到底是为什么吗到底是为什么
所以就是其实很多人都讲不清楚为什么对在现代研究的时候很多对于为什么这个因子要放入这个模型反而被轻描带水带过所以这也是很多人的批判就是说你要放一个因子之前像包括 AQR 都会说你要确定这个东西为什么它的机转到底是什么这个机转其实它只是一个我们讲的 sanity check 并不是说你有这个 sanity check 这个因子一定 work 只是你有这个 sanity check 大家都可以被你说服的时候我们才会觉得 ok 至少在某种程度上我降低一些 overfitting 的机会嘛
了解 嗯哼對 降低一些 overfitting 的機會嘛對 所以在選擇音質的時候
大家都还是会要求一个很明确的解释对很明确的解释就是说我要把因子放进来大家就说为什么要把因子放进来然后你就讲说因为某面很效应例如说因为台湾散户很凶所以我这个散户警讯指标可以散户警讯指标可以检测说哪一些散户在关注这个股票说它涨得很凶那散户没在关注的就会暂停因为台湾是散户市场这是一个简单的经济解释那你只要有这个可信度就会上升可信度就会上升那上升以后那其实基本上你对于这个东西也会比较有信心
对吧那这个东西其实在我们刚刚讲的这一开始在讲说为什么有些传统的我们讲的传统计量载就很讨厌 machine learning 为什么因为他 machine learning 在这方面其实做得很不好对不对那 machine learning 当初在强调的是什么在强调的是说我只要你们虽然说这个些东西怎么样怎么样怎么样很有效很有效但你们终究在探讨的是线性的关系它有没有非线性的关系没有被发现呢其实有机会吧
它是不是有很多的关系都因为你们这个要求很明确的经济解释的做法下我没办法发现这么多的机会没办法发现这么多机会但我用机器一批一批生出来然后我用一些很 reduce 的方式去把它避免说它不是 overfitting 它不是 overfitting 那我把它挡掉那我是不是可以发现比你更多的因子即便我说不清楚它为什么会是这样子
例如什麼 RSI 搭配一些散戶情緒指標或什麼之類的,然後再搭配一個什麼指標組合出來,它跟你講說這些新的因子。那傳統仔就會覺得,啊你這到底在講什麼?我聽不懂啊,這沒有經濟解釋意涵啊。你只是用一個很自動化的方式去把它撈出來,跟我想說這組資料有用,但實際上為什麼有用還是你只是在 overfeeding。
所以這其實是一個論證大家其實會不知道說這到底有沒有用因為在歷史上的經驗裡面已經告訴你很多這種研究產出來的 factor 是沒有用的而且甚至是會有害的對不對好那這個論戰是其中一個點對那還有一個點就是說假設今天你找出一個因子這個因子如果在線性都沒有用了你怎麼會期望它的高位有用在某種程度上是這樣子就是一個 x 平方的東西如果你畫一條 x 平方曲線
即便你用 X 去 fit 它你還是可以找出一個相對明顯的一個方式就是它不會你一個東西在高維度有用你在它一接的時候也不會沒有用也不會沒有用所以在這樣的情況下其實傳統仔們就會覺得這個東西就是有點過癒了因為問題的重點永遠是你的音質要放哪一些而不是你要怎麼去 fit 它對不對音質的選擇比你要怎麼去排列組合它會重要的很多嘛這是其中一個 argument 對那 ML 仔的
也有发一些论文然后那些论文也有在 defense 这些事情例如 2020 年有一篇就是我记得是刘吧发了一个论文他们就放了一个 machine learning model 放了七十几个英字八十几个英字然后去 fit 然后说他们用 machine learning 的 modelfit 出来就是比穿透线性模型的效果好两倍对那他们自然就像我看到你很惊讶对不对我还蛮惊讶的是啊对啊对啊那他们的逻辑也很简单就跟你说为什么我们不会 overfitting
為什麼我們不會像你剛剛講的就是印字動物園我們一直在那邊瘋狂的測測到一組有效的時候然後就把它丟出來然後這樣感覺好像很厲害這樣子他說其實原因也很簡單就是不是 machine learning 的算法不好是你們不會用
是你們不會用所以大家都會提倡說很多時候就要提倡很多正規化的方法例如說這個音質我就要給他 punishment 你只要編輯效果一帶來的東西不好我就把你 punishment 然後把你變成零或是讓你變成很多像 shrinkage 的一些做法去把這個模型變得更加穩定然後去讓他的模型在 out-sample 很穩定然後或是例如說我在做的時候我就每天都 rolling 什麼叫 rolling 就是我只看這個月的資料
然后下个月只要不看但是我要这个月之前的资料去预测下下个月的报酬有点类似这样的做法去避免说会不会有些 data leakage 或是一些奇奇怪怪的一些资料的泄漏的问题去产生这也是一种做法对然后我这样做法除了这些好处以外我还可以把真的一些有效的东西虽然那些很微弱在线性 model 上面没有办法被表现出来的因子给它萃取出来因为我的方式绝对很稳健绝对很稳健去做这样的一个尝试这样子对好
那这是两派的论证那这已经算是蛮学界的一个争论那目前的这个吵架结果到底是什么了就是 ML 这个现实施引到这些因子投资商有没有效呢我只能说还是一个谜团就是你总会听到一些不知道是没有公布你总会听到一些研讨会上有些人就说我拿来去做风险的侦测
我拿去做风险的侦测,然后可能在某个时候让他们躲掉一个大碟之类的但是你很少听到有人真的说我现在用的方式全部都是所谓的 Machine Learning Base 去做出来的因为讲来听来 Linear Regression 也是一个 Machine Learning 也是一个 Machine Learning 但是真的很少有人会跑出来跟你说我今天用那个 Machine Learning 大喊说我成功我真的用 Machine Learning 做出事情来,这边他在 Marketing 对不对好,那这是我们讲的主动投资方那如果像是 Market Maker 这种东西
有人是这样 Marketing 的就像是一家很大叫 XTX 不知道你有没有听过那是一个全球前十大的外汇 Market Maker 对他们就说他们在哪些地方投资很多的晶片然后用那边的算法去算事情这样子然后可能在一些报价上面有帮助这样子对但是真相是怎么样的其实就没有人知道就是你要问里面员工才知道因为有的时候你看起来是那样子其实
实际上他买那些东西是为其他用途但是大家都不知道这样子对好这是一些关于一些因子投资的一些分享 Vinnie 目前有什么看法吗我好奇一件事情就是呢你接触到这些东西是因为你的工作上面还是你自己是不是你的工作是跟因子投资相关吗还是说就是你其实蛮相信说用因子投资会有效我只能讲了在 model 层面这两个其实没差那么多了
这是一个很哲学的问题好我们就讨论一下反正这集流量一定很差我已经注意到了这集流量一定很差那我们就直接讨论吧这回到这个投资到底你认为什么叫做超额报酬这是一个哲学问题就是对就是讲我就举个例子就是如果假设 value indexsorry value factor 这么的有效那为什么我不是 simply 就直接用这个 value factor 投资 20 年
然后我甚至我就可以得到一个奖的更好的 shopper ratio 可能跌的比较少然后涨的比较多我放 30 年一定会一定都会有超额报酬放 30 年 40 年一定有超额报酬为什么大家都不去做这件事情对啊不是我觉得应该就这样讲吧他如果真的 work 的话他就去做啦但你今天发现大家没有这样做就表示说他肯定是没有那么完美的 work 背后你放了 30 年后价值因子基本上是会跑运大盘的 work 啊这是因子动物园里面讲的那为什么没有大家去做我不知道啊
因为在发码的架构里面他觉得这叫做一种风险的益酬对不对那为什么叫什么叫风险的益酬风险的益酬就代表说这个东西是你承担风险得来的它并不是免费的那我们在讲预测模型的时候在某种程度上是代表说什么因为我已经偷看答案我知道了未来所以这个东西理论上可以带给我更低的风险更高的报酬 Either one 嘛
那发码不相信这一套发码就直接说这所有东西都是有代价的你所有的每一个找出来的 factor 基本上都是因为你承担了一些风险所以才可以得到那个报酬那市场上每个月有不同的风险编号所以他们不选择去不去承担那些风险对不对所以在某种程度上他觉得他没有他发码的架构里面他觉得没有 alpha 他觉得不会有任何的 predictor 是可以不承担任何风险去换来的对不对
反正他就是跟你讲说你想要有某一个东西高一点你想要更高的报酬你就一定要相对的去承担更多的风险那他就只是跟你讲说你承担这一单位的风险你可以得到多少的报酬像这样对像是这样子像是这样子没错对但就会发现很奇怪有的时候你承担这个风险你还就要因子反转就有的时候你在某些地方承担风险你反而获得不到益酬
但这就很奇怪那为什么在某些情况某些时间让你承担更高的风险反而没办法获得更高的益酬这是一种思考逻辑另外一种思考 framework 是什么另外一种思考 framework 就是我已经知道我对下一把赌注是 55%的胜利胜利率是 55%那我为什么不能照着这个东西去压因为本身我在这个赌局里面我就是咨询优势方为什么我不能按这个去压 对不对
那我这样压的话那应该是等于是我获得的这些超报酬理论上风险应该是比较低的嘛那这个风险报酬会比较低就会反映在我策略绩效上面它的 sharp ratio 就是比较高嘛那还有问题在嗯我觉得重点重点是问题在哪里你说哪一个哪一个问题在哪里就是你刚才讲说那个胜率是 55%
因为在发马的架构里他不相信有这种东西那是他的假设假设就是市场是效率的他是一个是效率市场理论嘛因为效率市场理论就告诉你所有过去的历史资讯已经被完美反映在现在价格上面那你以这样的角度去切入的话发马就是觉得这个就不是我的目的啊那你就在说市场是不效率的嘛
那你这个东西过来放到我价格里面当然就不合嘛因为你不在我的假设里面对所以它其实是个哲学问题如果真的放到 model 层其实你会发现它其实是一样的我一定 model 里面会放很多 vector 那里面会放一些我讲的叫 predictorpredictor 我会把它放进去嘛那在商号如果我决定今天我觉得这是一个 alpha vector 我就是把因子的报酬全部都弄成 0 因为因子既然你发码 fringe 说因子就是承担风险来的我把这些因子的配置全部都变成 0
然后我只去压住我这些所谓的另外的一些发现的 predictor 的时候那理论上我这个策略产生的绩效如果对你的这些各个因子去跑回归是不是就有一个无法解释的
的 constant term,which is alpha 可是你在原本模型裡面你本來就會放出那麼多 factor 跟一些你認為的 alpha predictor 去做這件事情所以到最後你會發現這個東西講起來非常的繞口但最後這是一個哲學之爭對,這是一個哲學之爭什麼叫最後如果你講最簡單的就是怎樣反正你只要跑出一個模型的報酬沒有辦法被因子解釋你就是有 alpha 了
那你中間的那些過程不重要反正是什麼叫修滅 Alpha 就是你只要跑出來比因子報酬沒辦法解釋你就只有 Alpha 我不管你後面放了什麼那對一個 FIT 模型的人來說的話我是不是甚至可以說我在某些成我在因子報酬是正的時候成才這個因子我也是有 Alpha
我在该承担风险意图的时候就承担因子我也是有 alpha 那我在不该承担因子的时候我不承担因子我是不是也有 alpha 因为叠的时候不算我的涨的时候算我的对那这个架构其实一直是 FarmaFrench 的架构里面这是 FarmaFrench 架构外的讲的一个事情因为基本上你要在 FarmaFrench 那一套里面讲的话你要符合他的假设他的第一条假设就告诉你世界上没有这个东西所以你任何
拿这些东西过来跟我讲的那我就只能跟你讲这些报酬叫无法解释的报酬因为你不在我架构里面那我不管你这个架构是我不管你这个方法是说在证券时间许成证券因子呢还是你真的在 3 号得到一些内心消息然后赚一大堆钱反正我的理论架构没办法解释你的东西那你恭喜你就是 Alpha 的 Alpha Manager 嘛对不对那可是那回到方法论的时候那你会管这些东西吗其实你不会在在你在 Fee 模型的时候你不会在乎说我今天是发马派我还是 Alpha 派嘛
就是有 predictor 有能力的就全部放进去嘛然后你想办法去把它就是把钱做高就对就是赚的钱多就是一样就是赚钱才是真的你就是想办法赚钱你不会去想那些东西因为对你的 feeling model 没有帮助嘛这有解释到你疑问吗还是像臭老头在那边碎碎念啊没有吧算可以吧我觉得重点就是其实他还是会蛮好奇的吧因为毕竟你算是在
这个领域实际工作的人我只是一个非常谦虚的学习者我在讲这些东西的时候就是我突然觉得啊就是这样子然后我就会拿出来分析所以我都接受被大家泡这样子对但我不会看后台所以不要跟我说好没有了所以没有但我觉得这些比较有趣的是说你其实可以去验证一些所谓业界的老将法就是你我不知道如果你有碰过几个同学或是碰过几个业界他都会跟你说你一个你找了一个好的 factor 或是 predictor
你基本上你一定可以讲出他的逻辑是什么然后他一定很简单他一定很简单那这句话是有道理的那当初很多人就会说我当初对这段话 challenge 很多啊结果我觉得这个好土你不觉得很土吗什么叫做你只要找到一个好的 predictor 你不需要写太多很难的 model 你就可以找出他那你学那么多难的 model 在干嘛你不会觉得你一生技能没有用武之地吗但我觉得很多事情就是这样子吧就是你们知道很多时候是说最简单的东西实际上是最复杂的
對 這也是一個講法 我完全同意你但你當初你學了一大堆 technique 你學了 neural network 你學了什麼各種 LSTM 你學了 RNN 然後你過來跟我說你這個東西你根本不要那麼麻煩你就畫一條線 Excel 跑完你會不會覺得很幹對不對 你會不會學到你學了一個好的新工具想要來解決一個舊有問題舊有問題跟你說你不要那麼麻煩你會不會覺得那個是你們不懂其實蠻合理的嘛 其實蠻合理的嘛那你的感覺是什麼我的感覺是
这样讲啦就是即便我刚刚喷了 Long Show Portfolio 这种建构方式很久但是但是如果你真的找到一个东西而且你可以解释为什么的话你已经有个鲜艳的想法在前面的时候你把它拿去跑要发现效果比你想象中好的时候基本上都是中基本上都是中你有个理由去试的时候一定会中就是你有个理由去试了然后那个命中率真的会比较高你可以 maybe 是我 cherry picking 但是我自己感觉是真的是这样子
就是你在那邊沒事一直在那邊手動合 feature 啊然後拿去跑回測啊不是不行但你總會覺得怪怪的而且你會像無頭倉儀因為尤其是 may be 像是什麼就是例如我就講最簡單的短 MV 突破長 MV 那我第一個問題長 MV 要幾天短 MV 要幾天對吧這也是一個對啊那一般的做法會怎樣我就全部跑過一次嘛我全部找一個 combination 啊那總會有一組表現很好嘛
那你就会有一个问题就是你都试了 2000 组了这组表现好真的是他表现好是你赛到了那是不是一个 P hacking 对不对所以很多时候面试的时候你听到有别人讲说他发现什么 14.8 天的 MA 突破那个 2760 天的 LMA 的时候他发现这个策略有效那你会相信他吗我怎么知道不是你 P hacking 你进来不赚钱就算了你放不赚钱的因子我还会赔钱
那你連你自己在做什麼都不知道我要怎麼知道你到底知道自己在講什麼這也是一個最簡單的方式嘛最簡單的方式或是有些人就講說我都是用價量因子然後我第一個問題是什麼價量因子我不會問他說你真的用什麼但是你要跟我解釋 Machines 是什麼吧那很多都會反正就是價量因子就是有量的時候就怎樣怎樣怎樣我一聽就是你不知道你在說什麼
就是你不知道你没办法讲出你的东西到底在运用什么逻辑的时候你其实你很难相信他是真的知道自己在干嘛 OK 嗯懂我意思吗对啊对啊对啊对所以那这是一个其中一个点那假设你今天真的相信这个因子有效的时候你 long show 竟然跑不出效果的时候那你代表你要做什么事情这是一个实务上困难那代表你开始你这个验证这个因子的 pipeline 就要变得非常的多因为你可能就要又开始做很复杂的方式去萃取这个因子
然后你萃取这个因子你在 backtest 的时候你知道萃取那么多你在 live trading 的时候你也要放那么多东西进去那非常麻烦这个时候是不是我好奇就是假设说你觉得某一个理论应该要有效但是你时超之后就发现它没有效那你去控制就是你去调整它的方式去控制其他的变异让它可以更 pure 吗这个是另外一种做法这是另外一个做法但是问题是来的你没有控制那个变异它都不有效了
那它控制的變異它通常只會更差啦喔是這樣子喔~對阿對阿對阿代表你現有的資訊都已經被別的東西給解釋光了因為剛剛你講的其實是這樣其實最常見的是一個因子好像有機會結果你控制其他變數以後發現就沒機會了通常是這樣子因為你一個因子一開始就很爛的時候你根本不會想要去把它去做這個所謂的控制這個控制的這個做法嘛
你 Long Show Pro 跑出來都賠得要死你怎麼會想去控制其他的變音呢對當然也有一些專業的方法也有一些別的專業的方法對但是一樣回到剛剛一開始主題如果你發現這個東西 Long Show 都沒有用的時候那基本上它成功機會已經很低了不排除它可能會成功因為你要用更多複雜的東西更容易 overfit 點機會去把它給萃出來的時候那你幹嘛不直接去找個新的音質就好了事情不是比較簡單嗎對吧這也是一個做法嘛找這些新音質比較快對那
那当然如果说你今天这个所谓的因子已经很多的时候你这样简单 long show 你的命中率就会越来越低因为你的破里面已经有很多东西可以解释你未来的报酬了那你在加薪的东西进来如果你没有控制这些既有的东西的时候他就会给你一个假象他好像有用但是一跑起来就很没有用对不对那就是杂讯吗不是杂讯有点像是你一台车开得很快
然后你决定在你的挡风玻璃上画一对翅膀那你就觉得他跑得很快实际上你觉得可能不可能嘛对不对你的这台车跑很快你 Benz 跑很快可能是因为他引擎很好他引擎比别人好或他轮胎比别人好并不是因为他在上面画一对翅膀对不对所以你应该先排除因素是什么就是我要把他们引擎都换成一样把他们的车轮都换成一样然后再比较我这画翅膀以后的跑车有没有跑得比较快
那在这个 case 下面很显然的是什么很显然就是因为我的引擎 simply 就是比较好不代表是因为我上面有个翅膀所以我跑比较快所以是引擎解释了速度而不是翅膀解释了速度对所以刚刚就像讲的就像这个 case 一样我已经引擎跟轮子都已经设定好了那我加一个新的引擎就等于在画一堆翅膀也有可能是调一个间距但我不确定但是通常见的就是
A,Long Show 就像我是看這台車有翅膀跟這台車沒翅膀所以這個車,左邊的車跑比較快但是你控制起來因素就變什麼就是這台車的引擎什麼東西的參數我都知道了你這時候要去比較的時候那你是不是才可以知道畫這翅膀的好處和壞處好,A 嘛,自己講的好久,對好,那在實務上的話你基本上就可能這個時候就不會有 Long Show 了那我剛剛講的那個比較控制方法你就用一種做法叫 Factor Mimicking Portfolio
反正就是一种做法嘛一直就是实做大家可以去查一些线性代数但核心逻辑就是我想要控制引擎控制车轮那些东西然后把剩下的地方再拿去 marginal effect 再拿去跑回归去看能不能提供更多超额报酬这是一个比较完整的做法对这以上大概就是我最近分享的心得这样子的一些想看法好 Vini 有没有什么问题想问自己的烂言烂你最近我也觉得你讲这个什么
最近的心得那你最近时超起来之后你有发现什么新东西想跟大家分享的吗怎么说呢因为我一直在寻找的是一个我讲的 pipeline 就是你当然可以一个一个去做那你但是你就会在我刚刚讲的所有过程中开始陆续的遇到一些问题例如你加了一个新因子以后这个因子到底有效还没效那这个新因子会不会捣乱你原本的矩阵捣乱你变异数矩阵会不会让你残杂变高会不会 overfitting
对,那这个东西你如果分开写一堆 script 的话,其实你会最后你会发现你都在浪费重工科一模一样的东西。所以我是想要一个系统化的方式去可以让我很快的去过滤这个 pipeline,这样可以帮我省很多时间。对,那我可以给大家分享就是说,多看书,真的是多看书。因为你会发现说,我刚刚讲的那些东西其实很多论文其实不会提到这些细节。
但是你实务上的时候,你一定要度过这每个细节才能把事情做完论文就会给你提供一个方法,但是这些方法可以放到你 pipeline 里面其实是另外一件事情,其实另外一件事情对,那如果有人已经帮你整理好一本书,帮你写好这些所谓的 pipeline 跟你讲说哪些东西可以注意哪些论文的时候你的人生是不是会事半功会快的快很多,很多事情就可以变快很多那在他的 pipeline 下面,你是不是发现新音者速度就会变快
哦嗯做事的方式效率提高对做事的方式提高所以我现在目前在提高我的效率这样子对我在提高我的效率因为我本身在做这个研究的时候我还是很小心啦因为你知道花钱的时候就是你可以不要就还有一个是不要急着所以你很有信心啦不然不不不然你可以不用急着去 trade
因为你不吹不会赔钱但是一吹就可以赔钱所以我觉得我会在这个东西至少我要在 paper trading 这边做的很细致以后才想去做 live trading 对这是我一个目前的一个状态这样对完了自己应该是流量毒药大概前十分钟就没有要听了那只好用后面最后的三分钟来拯救这整集的收听品质跟收听人数好 Winnie 开始你的笑话时间对我今天准备了两个
第一个今天有一个白气球他去揍了黑气球请问接下来会发生什么事情不知道好告白气球好这个还不错这个还不错好下一个下一个 OK 请问水的妈妈叫做什么名字水母啊
对耶天哪 OK 我刚刚没有想到这个这个很简单好吧 OK 没有今天就两个我今天只找到两个没关系第一个很好笑好来 Winnie 让你收场好喜欢我们节目记得要分享订阅按赞你的留言是你的支持是我们继续制作内容的动力下次再见拜拜好我带你拜拜