利用Twitter情緒去預(yù)測股市

昵稱15ssP 2019-02-01

展開全文

正文

許多經(jīng)濟學(xué)家認為股票市場是隨機的，因為它受隨機事件的支配，有效市場假說和隨機游走理論中對此也有所說明。但是這是真的嗎?

研究人員對這一點進行了測試，他們試圖預(yù)測股票市場，以表明確實有可能對市場走向有影響，而且似乎某些事實已經(jīng)證明了他們的觀點。這一領(lǐng)域的里程碑式的論文是由Bollen等人撰寫的（https:///pdf/1010.3003.pdf）。本文中，我們將試圖簡單地解釋他們是如何做的。

Bollen使用公眾觀點（使用Twitter）來證明推特上公眾表達的情緒和股票市場表現(xiàn)之間存在關(guān)聯(lián)。

什么是股票市場？

現(xiàn)在，大多數(shù)公司不是由一個簡單的人所擁有，甚至不是一個單純的組織，而是由大量的人所共享一個公司，這些人被稱為股東。這些人都擁有公司的一部分股票，因此這些人也被稱為股東。股票市場是一個你可以出售公司股票或購買公司股票的地方。

更正式地說，股票可以定義為:

公司股票是將公司所有權(quán)分成持有的股份。在美式英語中，股份通常被稱為股票。單股份代表了公司的部分所有權(quán)，它與股份總數(shù)成比例。這通常使股東有權(quán)擁有部分的公司收益、資產(chǎn)清算所得（清償所有優(yōu)先債權(quán)，如有擔(dān)保和無擔(dān)保債務(wù)之后），或投票權(quán)，這通常按每個股東投資的金額來比例分配這些收益。（來自于維基百科）

股票市場可以定義為:

股票市場是股票（也稱為股份）的買方和賣方的集合（一個松散的經(jīng)濟交易網(wǎng)，它不是實體設(shè)施或?qū)嶓w），而股票代表著企業(yè)的所有權(quán)主張;這些可能包括公開的證券交易所上市的證券，以及只在私下交易的股票。（維基百科）

如果你有興趣了解更多，請參考這個鏈接：

https:///resources/knowledge/trading-investing/stock-market/

現(xiàn)在有很多股票市場，我們的研究落腳點將是“紐約證券交易所”。為什么？因為它是最大的股票市場，大多數(shù)相關(guān)研究都以它為研究對象?，F(xiàn)在，在繼續(xù)我們的研究之前，需要理解一個術(shù)語，它是“道瓊斯工業(yè)平均指數(shù)”，或者簡稱為“道瓊斯指數(shù)”。

道瓊斯工業(yè)平均指數(shù)是紐約證券交易所和納斯達克交易的30只重要股票的價格加權(quán)平均值。道瓊斯工業(yè)平均指數(shù)是查爾斯道在1896年發(fā)明的。

道瓊斯工業(yè)平均指數(shù)通常被稱為“道瓊斯”, 道瓊斯工業(yè)平均指數(shù)(DJIA)包括世界上最老、最受關(guān)注的一部分公司，有通用電氣公司、華特迪士尼公司、?？松梨诠疽约拔④浀裙尽ｋ娨暰W(wǎng)絡(luò)中的通常指的是道瓊斯指數(shù)。

所以道瓊斯指數(shù)為我們就研究股票市場是高走還是低走提供了一個很好的思路。那么DJIA到底衡量什么？它本身只是前30大公司股票價格的加權(quán)平均值，其中，價值更高的股票被賦予更大的權(quán)重，而最終的結(jié)果將被標準化以剔除偶然性事件。因此，它本身就是一個價格。

因此，有了DJIA，我們現(xiàn)在就有了一個可靠的方法去了解市場一天的表現(xiàn)?，F(xiàn)在我們需要的是一種能夠挖掘公眾意見的方式，為此我們借助Twitter。

Twitter情緒分析

機器能理解情感嗎？不，他們不能，直到現(xiàn)在，我們不是指完美的不（而是相當(dāng)不完美的不），因為機器現(xiàn)在可以理解各種各樣的情感（盡管不是完美和可靠的），并且很容易被愚弄/迷惑。

使用機器學(xué)習(xí)可以測量某段文本中表達的情緒（或情感）。但是精確度還有待提高。但是，如果情感被明確表達，并且語言上的含義并沒有被扭曲，那么我們可以建立一個可靠的情感分析模型。這是Bollen從推特上獲得情緒表達的載體想法。

情感分析是機器學(xué)習(xí)中一個非常重要的應(yīng)用，許多不同的（指的是很多）算法已經(jīng)被用于從文本中獲取情感這一現(xiàn)象就不足為奇了。讓我們來看一個最簡單和直觀的算法。考慮一個文本：

“埃隆.馬斯克的個性和他的人生哲學(xué)給我留下了非常深刻的印象，難怪特斯拉和太空探索技術(shù)公司（spaceX）做出了如此偉大的努力。”

我們的算法將只關(guān)注重要的單詞，如“非?！?、“印象深刻”等。（而不是像“我”、“是”等詞。我們的算法可能不知道spaceX、 Elon、Musk, 所以這些詞可能會被忽略掉）。現(xiàn)在，考慮到該算法之前已經(jīng)遍歷過正面積極的詞（在該訓(xùn)練文本的時候），并發(fā)現(xiàn)諸如“漂亮”“印象深刻”“偉大”這樣的詞大多與正面情緒有關(guān)。因此我們的算法可能會將文本標記為積極。

這是Textblob （文本分析工具：https://textblob./en/dev/）所采用的方法，它非常簡單，Textblob基于樸素貝葉斯算法工作。樸素貝葉斯算法是一種非常簡單的算法，考慮到它的簡單性，它給出的結(jié)果會很大。因此這個算法的思路是——考慮到每個單詞所關(guān)聯(lián)的文檔類型，給每個單詞賦予一個分數(shù)。從而出現(xiàn)在正面文本中的單詞比出現(xiàn)在負面文本中的單詞更有可能有更高(或更積極)的分數(shù)。因此如果積極的詞出現(xiàn)在文檔中，那么這個文本更有可能是正面的。因此，每個單詞都有自己的分數(shù)，然后對這些分數(shù)進行平均，以獲得文檔的情感傾向。

當(dāng)然，這種方法并不理想，尤其是在復(fù)雜的文檔上，這樣的方法會產(chǎn)生非常差的結(jié)果。因此，大多數(shù)研究者也會使用更復(fù)雜的分類器（如SVMs，即支持向量機）來建立情感分析模型。

Bollen使用了兩種工具進行情感挖掘，一種是意見查找器，另一種是谷歌公司推出的關(guān)于情緒狀態(tài)的個人資料服務(wù)。這些天我并沒有見過很多人使用意見查找器，當(dāng)然這個工具對于本博客來說也不是很重要，所以我們將把它放在谷歌情緒狀態(tài)簡介（或GPOMS）上。

GPOMS是一種工具，它可以幫助你準確地檢測文本中表達的情緒。它基于情緒狀態(tài)，由65或37個問題組成的調(diào)查問卷，而這將取決于你選擇哪一個。對于每一個問題，你都用以下的詞來表明你的感受——“一點也不”、“一點”、“適度”、“相當(dāng)多”、“極度”。因此，舉個例子，對于“遺憾”的問題，你會指出你作為上述狀態(tài)之一的感覺，它會用一個標準來轉(zhuǎn)換成分數(shù)，你的情感傾向?qū)鶕?jù)你的反應(yīng)來進行計算。這里有一個測試鏈接：https://www./poms.htm

那么，GPOMS如何使用POMS從文本中預(yù)測情緒呢?你可以點擊這個谷歌連接。Bollen使用了谷歌發(fā)布的一個數(shù)據(jù)集。這個數(shù)據(jù)集包括從1萬億個英文網(wǎng)頁文本中提取的n-gram的頻率來計數(shù)。你可以在這里試試。那么bollen做了什么：他將POMS調(diào)查問卷中的每個單詞與google n-gram數(shù)據(jù)集中的n-gram相關(guān)聯(lián),然后將最頻繁出現(xiàn)的N -gram分成標記。現(xiàn)在這些單詞中的每一個都有與之相關(guān)聯(lián)的情緒，并且可以基于這些單詞出現(xiàn)的情況來給它們一個加權(quán)分數(shù)，并根據(jù)這些詞在文本中的出現(xiàn)的部分來用情感進行標記。

以上是我們對Bollen在論文中對這一方法解釋的理解：

因此，詞典中964個術(shù)語的擴充使得GPOMS得以在推文中捕捉更多自然流出的情緒術(shù)語，并將它們映射到各自的POMS情緒維度中。我們將每條推文中使用的術(shù)語與這一詞典進行匹配。匹配n-gram術(shù)語的每個推文術(shù)語被映射回其原始POMS術(shù)語（根據(jù)其共同權(quán)重），并通過POMS評分表映射回其各自的POMS維度。因此，每個POMS情緒維度的得分被確定為與GPOMS詞典匹配的每個推詞的共現(xiàn)權(quán)重的加權(quán)和。

不幸的是，GPOMS不再可被自由獲取，現(xiàn)在它是一個封閉的源代碼工具（http://101.96.10.75/cs229.stanford.edu/proj2011/GoelMittal-StockMarketPredictionUsingTwitterSentimentAnalysis.pdf）。Goel- Mittal用一種簡單得多的方法建立了一個類似的模型（盡管不太準確）。他們使用POMS問卷中出現(xiàn)的單詞的同義詞，然后將它們映射到文本中。

根據(jù)他的GPOMS模型和意見調(diào)查者Bollen發(fā)現(xiàn)的人們的情緒傾向，得到的結(jié)果如下：

我們現(xiàn)在已經(jīng)完成了四個部分中的兩個，我們知道了如何衡量公眾的情緒和市場的情緒?，F(xiàn)在我們可以繼續(xù)證明這兩者之間確實是關(guān)聯(lián)的。

“時間序列”間的相關(guān)性

如上圖所示，我們已經(jīng)獲得了關(guān)于人們情緒的時間序列，類似的DJIA分數(shù)時間序列可以很容易地獲得?，F(xiàn)在，我們需要尋找一種方法來證明這些是相互關(guān)聯(lián)的，或者人們的情緒(從推特上挖掘出來的)導(dǎo)致了股票市場的變化。

我們用格蘭杰因果關(guān)系（Granger causality）來對它進行處理。那么到底什么是格蘭杰因果檢驗?zāi)?根據(jù) Schoaropedia 的文章（http://www./article/Granger_causality）

格蘭杰因果關(guān)系（Granger causality）是基于預(yù)測的因果關(guān)系的統(tǒng)計概念。根據(jù)格蘭杰因果關(guān)系，如果信號X1是信號X2的格蘭杰原因（或G-causes），則X1的過去值應(yīng)該包含有助于預(yù)測X2的信息,而不僅僅是X2過去值中包含的信息。它的數(shù)學(xué)公式基于隨機過程的線性回歸模型( Granger 1969 )。非線性情況存在更復(fù)雜的擴展形式，然而這些擴展形式在實踐中往往更難應(yīng)用。

所以，如果我們有兩個時間序列，比如X1和X2，我們可以證明X2依賴于它的歷史值，即：

這里，至少有一個常數(shù) 不為零，那么我們可以說取決于其歷史值,已知上述關(guān)系后，如果中至少有一個不為零，那么以下關(guān)系成立：

那么我們可以說X1是X2的格蘭杰原因, 或者X1有預(yù)測X2的可能性。請參考這段視頻可以更好地理解格蘭杰因果關(guān)系。

在做了二元格蘭杰因果分析后，Bollen發(fā)現(xiàn)，在六種情緒狀態(tài)（即平靜、警覺、肯定、重要、善良和快樂）中，只有一種情緒狀態(tài)，即“平靜”情緒狀態(tài)與股票市場的Granger因果關(guān)系最大，從2天到6天不等，另外四種情緒維度與股票市場沒有顯著的因果關(guān)系。

因此，Bollen繪制了“平靜”的時間序列（滯后3天）和DJIA時間序列，以顯示兩者之間的相關(guān)性：

陰影部分顯示了具有顯著相關(guān)性的部分。我們應(yīng)該記住，平靜圖滯后3天，因此Twitter的數(shù)據(jù)不是可以同步對市場進行預(yù)測，而是在3天前預(yù)測市場。如果我們仔細觀察的話，我們可以看到這個圖中存在大量的相關(guān)性，因此現(xiàn)在我們可以確定兩個時間序列之間存在相關(guān)性。我們可以利用這些信息來預(yù)測股票市場，以及見證我們預(yù)測的準確性有多高。

預(yù)測股票市場

現(xiàn)在，對于試金石數(shù)據(jù)，我們能根據(jù)現(xiàn)有的Twitter預(yù)測以前看不見的股票市場的將來趨勢嗎？

為了預(yù)測股票市場，Bollen使用了一種叫做自組織模糊神經(jīng)網(wǎng)絡(luò)（SOFNN）的算法，他們使用了五層混合SOFNN模型來預(yù)測股票市場，并獲得了令人印象深刻的結(jié)果。他們使用了不同的數(shù)據(jù)排列方式，例如，只有平靜，平靜和快樂交織等。他們在以非線性方式將平靜和快樂結(jié)合在一起后獲得的最佳準確率為87.6 %。

那么，到底什么是SOFNN？（http://www./article/Fuzzy_neural_network）根據(jù)這篇sholaropedia的學(xué)術(shù)論文，結(jié)合模糊邏輯和神經(jīng)網(wǎng)絡(luò)的優(yōu)點，為類似的任務(wù)創(chuàng)建了一個非常好的模型。這兩個主題都超出了本文的范圍。因此，我們將只簡要討論他們。

在進行計算機操作時，我們主要處理的是布爾邏輯或二進制邏輯，即任何實體都可認為0或1。但是這種類型的邏輯在現(xiàn)實世界的許多場景中并不適用，因為我們一般會面臨超過一個的結(jié)果，例如，游戲的結(jié)果主要是贏或輸，但也可能是平局，或者也可能需要考慮到贏的差距，因此在0和1這兩者之間可能會有更多的狀態(tài)。對我們來說，這似乎比二進制(又稱黑白)方法更自然，也更有助于模擬現(xiàn)實世界的情況。這種模糊方法是模糊邏輯背后的邏輯，你可以在這里讀到更多（http://www./article/Fuzzy_neural_network）

如果你沒聽說過神經(jīng)網(wǎng)絡(luò)，那么現(xiàn)在神經(jīng)網(wǎng)絡(luò)是個時髦的詞。是時候了解一些相關(guān)的博客了?；旧?，這是一個試圖模仿人腦內(nèi)部神經(jīng)元的數(shù)學(xué)模型。

以下是sholaropedia對混合模糊神經(jīng)網(wǎng)絡(luò)的一個很好的解釋：

混合神經(jīng)模糊系統(tǒng)是同質(zhì)的，一般而言，它與神經(jīng)網(wǎng)絡(luò)類似。這里,模糊系統(tǒng)被解釋為一種特殊的神經(jīng)網(wǎng)絡(luò)。這種混合NFS（神經(jīng)模糊系統(tǒng)）的優(yōu)點在于模糊系統(tǒng)和神經(jīng)網(wǎng)絡(luò)不必相互通信的架構(gòu)。它們是一個完全融合的實體。這些系統(tǒng)可以在線或離線學(xué)習(xí)。

模糊系統(tǒng)的規(guī)則庫被解釋為一種神經(jīng)網(wǎng)絡(luò)。以模糊集為權(quán)重，而輸入和輸出變量以及規(guī)則則被構(gòu)建成神經(jīng)元。在學(xué)習(xí)步驟中可以包括或剔除神經(jīng)元。最后，神經(jīng)元網(wǎng)絡(luò)代表了模糊知識庫。顯然，這兩個基礎(chǔ)系統(tǒng)的主要缺點都因此被克服了。

綜合

以上四個部分試圖用來解釋用于構(gòu)建Bollen提出的模型的較小部分。現(xiàn)在，我們將研究的最終模型，來更好地理解可用于預(yù)測股票市場的模型:

首先，將來自于推特和DJIA中的原始數(shù)據(jù)進行提取和處理，然后使用情緒分析模型Opinion Finder和GPOMS對推特數(shù)據(jù)進行Granger因果檢驗，以證明推特上表達的情緒確實與DJIA值有一定的相關(guān)性。一旦上述情況成立，我們接下來就可以開始用SOFNN模型預(yù)測股市了。

本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息，謹防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請點擊一鍵舉報。

小男孩‘自慰网亚洲一区二区,亚洲一级在线播放毛片,亚洲中文字幕av每天更新,黄aⅴ永久免费无码,91成人午夜在线精品,色网站免费在线观看,亚洲欧洲wwwww在线观看

利用Twitter情緒去預(yù)測股市