個人最近結(jié)合文獻的一個整理,期望和大家討論交流。 目錄 一、理論背景 多因子選股模型理論 二、因子的選取 候選因子的選取 候選因子有效性檢驗 有效但冗余因子的剔除 三、選股策略 基于因子打分 基于因子排序 基于因子回歸 現(xiàn)代分類技術 理論背景 對股票等金融資產(chǎn)進行合理定價是金融理論研究的重點內(nèi)容。研宄股票以及其他證券資產(chǎn)的定價的對于解釋和預測這些標的物價格的未來走勢具有十分重要的意義。以股票為例,目前在中國股票市場,分析市場價格走勢的預測方法主要分為兩個流派: 一派是技術分析流派,技術分析關注市場的動態(tài),股價的歷史走勢。技術分析者將大量的精力投入到歷史行情的研宄中,基于歷史可以重演這一假設,通過圖表分析或者指標分析來尋找股價歷史走勢的規(guī)律并以此為依據(jù)預測股價的未來走勢。技術分析的優(yōu)點在于可以告訴投資者應該在哪個時間買入股票或者賣出股票。然而,技術分析依賴于歷史的重演,由于股票市場在現(xiàn)實中是不斷變化的,技術分析的有效性常常會受到挑戰(zhàn),這一點也是技術分析的局限性所在。 另外一種流派是基本面分析流派。這個流派,主要從經(jīng)濟學理論的角度,利用目前較為完善的宏觀分析,行業(yè)分析以及公司財報分析等方法,提取決定股價高低的有用信息來對股票市場進行分析?;久孢x股主要看重股票的成長性,以及股票的價值是否被低估等情況。另外,基本面選股也需要考慮市場一些動態(tài)信息,包括并對政策信息和行業(yè)信息進行分析?;久娣治隹梢詭椭顿Y者選擇出更優(yōu)秀的股票,但是對于股票的擇時問題,卻沒有給出明確的答案。 量化投資可以將兩者的優(yōu)點相結(jié)合。通過量化的理念將原來屬于定性分析范疇的基本面分析定量化,同時加上技術分析本身就具有定量分析的特性,量化投資就可以將這兩者相結(jié)合在一起,可以同時滿足投資者對選股和擇時的需求。 多因子選股模型理論 隨著計算機科學與現(xiàn)代金融理論的發(fā)展,借助于計算機技術與數(shù)理方法實現(xiàn)證券組合構建以及自動交易的量化投資技術孕育而生。憑借其成本低廉、業(yè)績出色、能夠充分克服人性的弱點等特點,自其誕生來,量化投資就受到了廣泛的關注,也創(chuàng)造了諸多奇跡。 簡單來講,量化投資是指利用計算機技術與數(shù)學建模等手段來實現(xiàn)投資理念和投資策略的過程。與傳統(tǒng)投資不同,量化投資主要依靠數(shù)學模型和數(shù)據(jù)來尋找投資標的,執(zhí)行投資策略,追求穩(wěn)定而持續(xù)的收益。量化投資在西方投資界被稱為是傳統(tǒng)投資哲學的"投資革命",它在過去的40年的發(fā)展中,被證明是一種可對沖市場風險并以概率取勝的高收益投資模式。量化投資與傳統(tǒng)投資模式在本質(zhì)上是相同的,他們都是基于市場非有效或弱有效的理論基礎,試圖戰(zhàn)勝市場而獲取超額收益。但量化投資又區(qū)別于傳統(tǒng)投資,其至少在以下幾個方面具有明顯的優(yōu)勢: (1)量化投資打破了傳統(tǒng)投資的投資范圍局限,由于其借助強大的計算機運算能力,大大增強了挖掘信息的廣度和速度,所以,量化投資的范圍可覆蓋整個市場; (2)量化投資可避免投資者主觀因素影響,貪婪、恐懼、過度自信、饒幸也理,即使是最優(yōu)秀的交易員,也難免會在投資中受到人性弱點的影響,而量化投資在操作中可嚴格執(zhí)行交易規(guī)則,避免非理性帶來的決策失誤; (3)系統(tǒng)化、科學化,量化投資以嚴謹?shù)臄?shù)學分析和統(tǒng)計檢驗為基礎,時刻捕捉市場定價偏差,對沖風險暴露,追求概率獲勝,其每一個投資決策都有嚴謹?shù)睦碚撝?,使得投資更加科學化、系統(tǒng)化。 量化選股是量化投資的核心內(nèi)容,它是采用數(shù)量的方法判斷某個公司是否值得買入的行為。根據(jù)某個方法,如果該公司滿足了該方法的條件,則放入股票池如果不滿足,則從股票池中剔除。多因子模型是應用最廣泛的一種選股模型,基本原理是采用一系列的因子作為選股標準,滿足這些因子的股票被買入,不滿足的則賣出。多因子模型相對來說比較穩(wěn)定,因為在不同的市場條件下,總有一些因子發(fā)揮作用。 多因子選股模型的基礎是Fama和French在1933年提出的Fama-French模型。三因子模型可以看做是CAPM模型的一個拓展,也可以看做是對APT模型的應用。它明確了影響股票超額收益的因素有三個,分別是市場因子、規(guī)模因子和價值因子。經(jīng)國內(nèi)學者的大量數(shù)據(jù)驗證,表面三因子模型對中國股市是有效的。但是三因子模型也有自身的缺點,比如三因子模型的因子都是宏觀因素,不適合做短期投資。而本文正是追求短期投資的超額收益,但是三因子模型正好給了一個啟發(fā),來尋找更能解釋股票超額收益的因子的一個方向,同時無論是CAPM模型還是三因子模型,都是通過一個線性方程來解釋股票超額收益的組成結(jié)構,在計算機和數(shù)理金融日漸發(fā)達的今天,國內(nèi)國外也越來越多的人開始將數(shù)學挖掘算法以及數(shù)理統(tǒng)計知識應用到金融投資領域 因子的選取 候選因子的選取 影響股票收益的因素很多,最常用的候選因子是估值類指標,如市盈率、市凈率等,價值相比于同行業(yè)較低的股票往往被市場認為價值被低估,如果不存在其他可能導致股票不被市場認可的因素,此類股票很可能被低估;盈利類指標是從盈利水平的指標衡量股票的價值,比較適合長期投資的決策者適用,如ROA、ROE;現(xiàn)金流量類指標被很多投資者稱之為企業(yè)經(jīng)營狀況的晴雨表,一般不太容易被操縱,因而也受到很多投資者的青睞。另外企業(yè)資產(chǎn)負債率、速動比率、流動比率等是從公司償債能力的角度分析企業(yè)財務狀況,存貨周轉(zhuǎn)率、應收賬款周轉(zhuǎn)率則是從運營情況來分析企業(yè)財務狀況。選擇更多、更有效的候選因子無疑將會增強模型信息捕獲能力,提高穩(wěn)定性,是獲得超額收益的關鍵因素之一。 當然有不少文獻參考了其他文獻的因子,并進一步添加了因子,比如2014年曹正鳳等人在《使用隨機森林算法實現(xiàn)優(yōu)質(zhì)股票的選擇》中用了2009年焦健等人在《基于CART決策樹的行業(yè)選股方法》中用到的六個因子。國信證券工程師焦健等人提出的六因子量化選股模型, 由市凈率、市盈率、ROA、前一月股票收益率、EPS一致預期變化率和EPS—致預期六個指標構建。前兩個指標都是價值因子,是衡量市場及股票是否合理的常用指標,曹正鳳給予保留。后四個指標體現(xiàn)了成長因子的概念, 由于前一月股票收益率穩(wěn)定性較差,予以剔除,保留ROA、EPS一致預期變化率和EPS—致預期三個指標。這樣共有五個指標,在一般的選股模型中都有這五個指標, 或者是其線性組合。為了使模型的穩(wěn)定性更好,曹正鳳又加上以下四個指標:一是凈資產(chǎn)收益率(ROE),又稱股東權益報酬率,是報告期凈利潤與報告期末凈資產(chǎn)的比值。它是判斷上市公司盈利能力的一項重要指標,一直受到證券市場參與各方的極大關注。二是存貨周轉(zhuǎn)率,它是衡量和評價企業(yè)購人存貨、投人生產(chǎn)、銷售收回等各環(huán)節(jié)管理狀況的綜合性指標。它是銷貨成本被平均存貨所除而得到的比率, 或叫存貨的周轉(zhuǎn)次數(shù), 用時間表示的存貨周轉(zhuǎn)率就是存貨周轉(zhuǎn)天數(shù)。存貨周轉(zhuǎn)率反映了企業(yè)銷售效率和存貨使用效率。三是資產(chǎn)負債率,它是企業(yè)負債總額占企業(yè)資產(chǎn)總額的百分比。這個指標反映了在企業(yè)的全部資產(chǎn)中由債權人提供的資產(chǎn)所占比重的大小,反映了債權人向企業(yè)提供信貸資金的風險程度。四是流通市值,它是公司的股票在證券市場里的交易價格乘以總股本的結(jié)果,反映了市場在某個時期對公司的看法,是公司價值的一種市場體現(xiàn)。 候選因子有效性檢驗 2014年王昭棟在《多因子選股模型在中國股票市場的實證分析》中主要做了因子與未來收益之間的線性關系的檢驗,具體的檢驗準則按照下面的步驟進行: (1)排序分組。 先對備選因子逐個按照因子的大小進行排序并分組。進行的所有測試將備選股票池的股票分為5組。每組160只股票。 (2)因子的有效性檢驗。 在歷史回測中觀察第五組收益率比第一組投資組合收益高或者低的頻率,并觀察第一組和第二組的合并組與第四組和第五組的合并組之間的檢驗差值。如果這兩個度量指標顯示的數(shù)值的符號相同,并且合并組具有較高的收益差值,就可以初步認定該因子具有有效的可能。用這個方法篩選出所有滿足條件的備選因子。 (3)考察因子的分組與因子收益率之間的關系。 需要說明的是:這一步只是對因子進行粗篩選,并不需要因子與收益率之間滿足嚴格的遞增或者是遞減關系,只要保證滿足一定的相關關系即可。經(jīng)過有效性的檢驗的因子可以納入到備選因子庫。 丁鵬在《量化投資-策略與技術》一書中提到了另一種一般性的采用排序方式的檢驗方法。具體而言,具體而言,對于任意一個候選因子,在模型形成期的第一個月初開始計算市場中每只正常交易股票的該因子的大小,按從小到大的順序?qū)颖竟善边M行排序,并平均分為n個組合,一直持有到月末,在下月初再按同樣的方法重新構建n個組合并持有到月末,每月如此,一直重復到模型形成期末。組合構建完畢后,計算這n個組合的年化復合收益、相對于業(yè)績基準的超額收益、在不同市場狀況下的高收益組合跑贏基準和低收益組合跑輸基準的概率等。 2015年趙智輝在《基于三層過濾模式的多因子選股模型研究》中進行因子篩選研究時的因子顯著性t檢驗和因子的勝率和相關收益率計算本質(zhì)上也是排序的方法。 有效但冗余因子的剔除 不同的選股因子可能由于內(nèi)在的驅(qū)動因素大致相同等原因,所選出的組合在個股構成和收益等方面具有較高的一致性,因此其中的一些因子需要作為冗余因子剔除,而只保留同類因子中收益最好、區(qū)分度最高的一個因子。例如成交量指標和流通量指標之間具有比較明顯的相關性。流通盤越大的,成交量一般也會比較大,因此在選股模型中,這兩個因子只選擇其中一個。 冗余因子剔除的方法:假設需要選出k 個有效因子,樣本期共m 月,那么具體的冗余因子剔除步驟為: (1)先對不同因子下的n個組合進行打分,分值與該組合在整個模型形成期的收益相關,收益越大,分值越高; (2)按月計算個股的不同因子得分間的相關性矩陣; (3)在計算完每月因子得分相關性矩陣后,計算整個樣本期內(nèi)相關性矩陣的平均值; (4)設定一個得分相關性閥值 MinScoreCorr,將得分相關性平均值矩陣中大于該閥值的元素所對應的因子只保留與其他因子相關性較小、有效性更強的因子,而其他因子則作為冗余因子剔除。 選股策略 基于因子打分 2011年吳荻在《中國股票市場選股模型實證分析》中采用了多因素綜合評分選股方法,它是業(yè)界流行的多因素選股模型之一。它包括首先選擇影響股票收益的選股指標,并將每個選股指標轉(zhuǎn)換為評分后,通過不同加權方法獲得多因素綜合評分,并以此為選股依據(jù)對股票進行篩選和構建投資組合。運用多因素綜合評分對股票進行排序分為上等、下等和其他三個等級,并將上等和下等中的股票按照市值加權構建最優(yōu)和最劣兩個投資組合。 基于因子排序 2014年王昭棟在《多因子選股模型在中國股票市場的實證分析》中運用了基于因子排序的多因子模型,其主要思想是按照多個因子的大小分別排序,選擇出排名靠前的股票構建投資組合。該模型認為因子的大小與股票的未來收益之間存在著一定的相關關系。不論這個相關關系是正向的還是反向的,只要這個相關關系得到確認,就可以為我們所用,作為選股的依據(jù)。基于因子排序的多因子模型在排序前需要明確因子的重要程度。重要的因子放在前面,次要的因子放在后面。也就是說先按照重要的因子排序選出一個股票集合。然后再按照次要的因子排序,選出一個股票集合。最終選出符合要求的投資組合。 基于因子排序因子的選擇需要考慮單因子的表現(xiàn)以及各因子之間的相互關系。同時該模型的構建也可以參考現(xiàn)有的選股邏輯。之所以采用一些現(xiàn)有的選股邏輯主要是為了避免基于單因子排序選股的盲目性,可以更有效地利用選股過程中的一些先驗信息。對于提高選股成功率具有一定的指導意義。該模型的具體操作步驟如下: (1)明確需要因子的個數(shù),以及因子的類型,構建合理的選股邏輯。 (2)從各大類因子中選擇合適的具體因子。這個過程可以通過計算機進行遍歷操作,尋找最優(yōu)秀的因子組合對因子組合進行排序,確定主要選股因子和次要選股因子。 (3)依次按照主要選股因子和次要選股進行排序。例如我們想選出的股票作為第一檔組合,可以按照主要選股因子排序先選出前的股票,然后再按照次要因子選出前的股票,這樣股票數(shù)目就可以與單因子的結(jié)果相一致。 (4)對因子組合的超額收益和因子組別進行相關性分析。因子排名最高的一檔的超額收益率與組別排名最低的一檔的超額收益率的取值是異號的,并且因子的大小與各檔投資組合的收益率大致上是呈現(xiàn)正相關或者負相關關系,我們就可以認為該因子組合通過了因子的有效性檢驗。然后,從時間序列維度對因子組合的歷史表現(xiàn)的穩(wěn)定性做進一步的檢驗。如果不能通過穩(wěn)定性檢驗就認為該因子組合是無效的。這時需要重復第二步到第四步的操作。 (5)跟蹤從上一步篩序出來的因子組合的表現(xiàn),對于能夠在實盤中能夠獲得穩(wěn)定收益的因子組合我們予以保留;對于在實盤中表現(xiàn)較差的策略,直接刪除。 基于因子回歸 2014年曹春曉在《中國A股市場多因素選股模型實證分析》中采用了基于因子回歸的多因子模型,通過多元線性回歸,對因子和未來收益之間的線性關系進行評估。基于回歸的多因子模型具有基于數(shù)據(jù)挖掘量化投資模型的特性。可以更高效的在歷史數(shù)據(jù)中發(fā)現(xiàn)一些有效的因子組合,指導我們的投資工作?;貧w方程的系數(shù)可以看成是我們選股因子的權重。假定這個回歸關系是可以在下一期繼續(xù)得到保留,將最新一期的因子值代入到回歸方程中,得到回歸方程的預測值,然后根據(jù)預測值的大小對股票進行排序,選擇出取值較高的那一組股票作為我們的投資組合。這樣在m個樣本考察期中,我們就可以這樣得到m組投資組合。根據(jù)多因子選出的股票直接代入系統(tǒng)進行歷史回測,得到回測報告。直接根據(jù)回測報告中投資的收益的穩(wěn)定性和盈利性,通過觀察投資組合在歷史行情中的表現(xiàn)檢測穩(wěn)定性。通過對投資組合的平均收益率分析來驗證其收益性。 現(xiàn)代分類技術 從技術上看,股票的選取可以歸結(jié)影響股票價格的多因素分析問題,其中每一個因素可以看作一個維度的指標,這樣股票的價格就由多個維度的指標體系決定,從眾多的股票中選取優(yōu)質(zhì)的股票,就歸結(jié)為大量信息的統(tǒng)計分析,其本質(zhì)是一個多維空間的分類問題。眾多的文獻采用了形形色色的現(xiàn)代分類方法。 2009年焦健等人在《基于CART決策樹的行業(yè)選股方法》中借鑒Eric H, Keith L和Chee K在2000年的“The Decision Tree Approach to Stock Selection - An evolving tree model performs the best”一文中所提出的決策樹方法并參考其指標,我們對國內(nèi)科技股板塊從2003年到2009年的數(shù)據(jù)進行靜態(tài)樹和動態(tài)樹模型的檢驗,并構造相應的多空頭組合。后期又通過事前修剪、事后修剪以及節(jié)點過濾,對靜態(tài)和動態(tài)CART決策樹進行了修正以增加其拓展性。檢驗結(jié)果表明,修正后的模型多空組合收益差明顯提高,而動態(tài)CART決策樹分類后的股票多空差異顯著,達到了2.98%的水平,且多頭組合財富曲線顯著超越了空頭組合和科技股全樣本平均表現(xiàn)。從選股數(shù)量上來看,多空頭組合所含股票不足全樣本的一半,有效降低了選股難度,體現(xiàn)出分類的準確性。 2012年石煜在《基于數(shù)據(jù)挖掘的數(shù)量化模型選股分析平臺》中提出了基于SQL的公式分類法算法。根據(jù)已知的投資模型,也就是不同的投資理論抽象出一個分類挖掘的規(guī)則,既挖掘公式,假設每個元數(shù)據(jù)都屬于特定的類,然后使用公式算法模型進行分類,利用數(shù)據(jù)庫技術的查詢語言來分類并描述預期要得到的數(shù)據(jù)類或數(shù)據(jù)集。通過按照公式挖掘規(guī)則分析數(shù)據(jù)庫中帶有預定屬性的元數(shù)據(jù),得出分類結(jié)果,并按特定屬性要求顯示。 2013年蘇治等人構建了基于核主成分遺傳算法改進的支持向量回歸機人工智能選股模型( KPCA-GA-SVR),采用SVR 模型對股票收益率進行回歸分析,首先利用核主成分分析( KPCA) 方法對輸入向量進行特征提取,然后采用遺傳算法最佳化模型參數(shù),構建了基于KPCA-GA-SVR的人工智能選股模型,并分別從短期和中長期兩個時段對模型的選股性能進行評價與對比。 2014年曹正鳳等人在《使用隨機森林算法實現(xiàn)優(yōu)質(zhì)股票的選擇》一文中,采用了隨機森林算法進行選股,因其訓練集隨機和屬性隨機兩個隨機性特點使得算法具有很好的容錯性和魯棒性,這和當前股票市場異常情況和干擾項比較多的情況相適應;和支持向量機相比,在進行多分類選擇時,隨機森林算法性能顯著占優(yōu);另外,隨機森林算法具有很高的預測準確率,且不容易出現(xiàn)過擬合。 2015年徐步云在《基于SOM算法的軌跡聚類選股策略》一文中采用了基于SOA神經(jīng)網(wǎng)絡的軌跡聚類方法選股,聚成的每一類中都有一籃子的股票數(shù)據(jù),把每一類看做是一個股票組合,并計算分析每一股票組合在接下來一段交易日時間內(nèi)的收益表現(xiàn),找出收益表現(xiàn)最好的類,記為topcluster。由topcluster股票組合在未來一段時間都表現(xiàn)出了很好的收益,所以把topcluster的聚類特征視為優(yōu)勝的選股條件。在選股時,所有的聚類特征均參加選股,每一種聚類特征都篩選跟自己的特征最相近的股票。而被topcluster選中的股票就是該策略選出的股票,這些股票被認為有更大的可能性在未來一段時間內(nèi)會有不錯的表現(xiàn)。 |
|