由我院張學勇教授和其指導的博士研究生吳雨玲合作撰寫的論文“基于網絡大數據挖掘的實證資産定價研究綜述”近期發表于我院A類期刊《經濟學動态》2018年第6期。
得益于互聯網的飛速發展,投資者在使用互聯網的過程中留下了大量數據,這些數據為研究投資者關注和投資者情緒提供了理想樣本,進而為基于投資者行為的投資策略提供了新的思路。
投資者關注和投資者情緒是行為金融學近年的重要研究主題。傳統的投資者關注的度量方式可以分為以下兩種:第一種方式是利用金融資産的交易特點度量投資者關注度與情緒。通常的做法是使用交易量、換手率、成交量等變量測度股票是否受到了投資者關注。第二種方式是基于财務報表和公告數據測度投資者關注,如使用廣告費和營銷方式代理投資者關注。
傳統的投資者情緒的度量方式主要可以分為三種:第一種是用金融資産的交易特點等客觀數據度量投資者情緒,包括使用封閉式基金的折價率、IPO數量及首日收益、新增投資者開戶數等與市場交易相關的變量測度投資者情緒;第二種方式是通過分析公司董事、管理人員和分析師等人的情緒或者直接使用其他機構提供的市場情緒指标等主觀指标度量投資者情緒;第三種方式是結合幾種情緒測度代理變量,生成新的情緒度量指标。
使用網絡大數據對投資者關注的度量以“計數”為中心思想,即通過統計網絡大數據中能夠反映投資者關注或者能夠吸引投資者關注的變量來實現。根據網絡大數據的投資者關注度量方法主要有以下四種:新聞覆蓋率法、業績排名法、搜索量法和發帖量法。網絡覆蓋率和業績排名并不能直接代理投資者對證券的關注,隻有僅當投資者接收到這些信息後,才會對相應證券投以關注,因此,這兩種方法仍然是一種間接的度量方法。
使用網絡大數據對投資者情緒的度量方法以“分類”為中心思想,通過文本分析将網絡大數據中有效信息分為“積極的情緒”、“消極的情緒”以及“中立的情緒”。由于投資者情緒以人類語言即文本數據的形式存在于網絡大數據中,因此分析文本數據的感情色彩是度量情緒的關鍵。使用機器學習中的“監督學習”分類算法能較好地實現文本分類,也是近年來被使用最多的分類方法。通常認為從網絡大數據中提取出的投資者樂觀或悲觀程度能在一定程度預測市場走勢或股票價格波動。
相較傳統交易數據或财務報表數據,網絡大數據具有其獨特的優勢。常見被用來測度投資者關注和情緒的網絡大數據有以下四種:網絡新聞數據、搜索引擎數據、社交網絡數據和網絡論壇數據。根據2016的中國網民互聯網應用的使用率數據,以上四類應用的網民使用率分别為:84%(網絡新聞)、82.4%(搜索引擎)、37.1%(僅指微博)和16.5%(網絡論壇)。以上四類數據來源同時也呈現出了相互影響、協同加強的新特點。
第一,基于網絡新聞數據的挖掘。網絡新聞指媒體在互聯網上發布的新聞,包括股票分析或上市公司動态等内容,被諸多學者用以研究投資者關注和情緒與資産價格之間的相關性。總的來說,基于網絡新聞的數據具有數量大、時效高和種類多的特點。首先,曝光較多的證券更容易吸引投資者關注,因此網絡新聞數據能在一定程度上反映投資者關注;其次,媒體會通過調查和分析做出利好或利差的報道,正因如此,針對同一事件,不同的網絡媒體會發布不完全相同甚至觀點迥異的新聞。這些具有感情色彩的新聞評述會向大衆傳遞積極或消極的情緒。
第二,基于互聯網搜索的數據挖掘。互聯網搜索引擎的發展和移動設備的普及使人們能随時随地對吸引其注意的事物獲取進一步的信息。截至2016年底,我國搜索引擎用戶規模為6.02億,使用率為82.4% ,用戶規模相比2015年底增長6.4%。除了直接利用搜索引擎數據外,金融終端内的搜索量也能作為投資者關注的度量指标。該類數據最大特點在于它直接反映了人們對某證券的關注。盡管搜索引擎數據較多被用于對投資者關注的研究上,但搜索關鍵詞所體現的投資者情緒也被學者用來研究資産價格走勢。
第三,基于互聯網社交媒體的數據挖掘。微博、博客等社交網絡是人們信息傳遞和交流的重要平台。基于社交網絡的數據有以下兩大特點:首先,社交網絡的分享功能使得任何消息都能夠迅速傳播。一方面,由于人們往往高估其他人的意見,因此成為有影響力的發言者将有利可圖,當市場均衡時,所有參與者都願意從别人獲取信息尤其是一些更有影響力的人;另一方面,一旦人們通過學習形成了自己的觀點,他們傾向于向其他個體傳播。其次,不同于網絡論壇上具有針對性的發帖,社交網絡數據記錄了大量獨立的情緒,有利于研究異質性風險與市場效率。
第四,基于論壇的數據挖掘。較多投資者在諸如股吧和雪球網之類的網絡論壇發帖和評論别人的發帖。基于網絡論壇的數據對研究投資者行為和心理具有顯著優勢:首先,網絡論壇發帖内容能較快反映投資者關注和情緒;其次,網絡論壇的發帖内容包含投資者的分歧意見,而情緒分歧與市場交易的發生相關;再次,網絡論壇的發帖内容還包含部分非公開信息,而這些信息對預測股票收益率有顯著作用;最後,财經類網絡論壇具有一定的專業性,發帖者和閱讀者有一定的金融市場知識,排除了一部分網絡噪聲。
傳統的金融市場投資研究多從股票基本面數據和行情數據中獲取投資策略,這些數據難以直接、準确、迅速地揭示投資者的心理和行為,而投資者的心理和行為與證券價格走勢尤其是股票價格走勢直接相關。随着人工智能、深度學習等技術在網絡大數據中的運用,直接反映投資者行為的數據将不再百不一遇,投資者尤其是專業投資者勢必期望從新型數據中挖掘有價值的投資信息。
近年來運用上述數據的研究發現投資者關注和投資者情緒能夠較好地預測個股收益率和波動性、市場收益率和波動性、基金資金淨流入等金融資産變量,基于網絡大數據的量化投資策略已經成為新的熱門研究方向。2011年,首家基于社交網絡的對沖基金——Derwent Capital Markets在英國成立。該基金通過即時分析Twitter上的公衆情緒進行投資。2012年,通過分析社交網絡Twitter、搜索引擎Google以及其他網絡新聞數據的對沖基金Cayman Atlantic成立,該基金從2012年7月至2015年3月累計收益率高達73.21%。南方基金在2015年發行了“南方大數據100指數”,該基金為跟蹤“大數據100指數”的普通指數基金。“大數據100指數”中的大數據因子将新浪财經頻道下的股票頁面訪問熱度、新聞報道正負性、股票在微博上的正負性納入了考慮。此類基金還有基于濟安金信軟件系統數據的銀河中證騰安、基于百度搜索大數據的“廣發百發100指數a”、基于阿裡巴巴電商數據的“博時中證淘金100”等。
目前國内的大數據量化投資模式主要為“公募基金公司+互聯網公司”模式,未來基于網絡大數據的金融市場投資将呈現機構更加多樣化、數據更加多樣化和投資策略更加多樣化的特點。基于網絡大數據的金融市場投資已顯示出大有可為的趨勢,對基于大數據分析的金融市場投資策略的需求也将越加旺盛。