登录 注册 下载

金雪军:股吧发帖能否影响股价?

1067 views

股吧帖子能否左右投资者情绪进而影响股价?本文利用文本挖掘技术研究股吧发帖,发现虚拟世界的讨论的确对现实世界产生了影响。

股市中的“二八定律”

人人都知道股市中的“二八定律”:在股市中八成的人都是亏钱的,而亏钱的投资者中绝大部分都是散户。我们可以常常看到中小投资者在各大股吧发泄自己对于“庄家”的不满。在以前,这些股吧的帖子都被当作非理性的垃圾,得不到业界与学术界的重视。但是随着文本挖掘技术以及计算能力的发展,学者们以及对冲基金的经理们越来越意识到其实中小投资者的声音同样不能忽视—他们虽然可能情绪化并且充满主观感情的发泄,但是如果把这些情绪挖掘、提取并编制成指数,甚至可以预测股市的走势。

换句话说,你一个人的情绪可能无关轻重,但如果千千万万和你一样的散户都不高兴,那就是一股巨大的力量,可以影响整个市场。已经有不少学者对此进行了探索,例如Antweiler and Frank(2004)采用朴素贝叶斯算法将来自雅虎财经(Yahoo! Finance)里的150万条帖子分成看空、看多、持平(包括噪音)三类,并由此构建了一个投资者看涨指数,结果发现论坛信息可以预测股价的波动率。Bollenet. al(2011)搜集了2008年2月28日至12月19日之间近1000万条推特(Twitter)上的公共微博,采用谷歌OF与GPOMS工具来分析微博文本的情绪倾向,并用该情绪倾向来预测第二天道琼斯指数的涨跌,发现预测的准确率达到了87.6%。不过,以上研究大多以美国股市为前提,中国的情况会是怎么样的呢?这便是我们想要回答的问题。

biao23

biao24

中国的情况

想要研究股票论坛所反映的投资者情绪,第一步就是获取股民的发帖。我们使用Python编写了一个24小时运行的网络爬虫,自动浏览并抓取股民所发布的600多万条帖子。第二步,也就是最关键的一步,我们使用文本挖掘方法对发帖进行分类。首先随机选择2000条发帖人工将之分为“乐观”、“中立”和“悲观”三类,并赋值1、0和-1。接着,将这部分“训练数据集”喂给计算机,计算机就会根据指定的算法“学习”人类的分类规则,并对剩下的百万条帖子自动分类。我们使用了Naive Bayes、KNN、SVM、决策树等多种分类算法,从中选取了效果最好的一个。最后,我们将每日的情绪加总,就得到投资者的“情绪指数”。根据一段时间情绪的分离程度,我们还计算了“意见分散指数”。

我们首先考察了情绪指数与市场收益率的关系,发现在回归方程中哪怕只有情绪指数一个变量,方程的R-square就达到了36%,说明情绪对于收益率具有很好的解释力。接着考察情绪指数对于市场收益率的预测能力。众所周知,股票的日收益远比周收益或者月收益要难预测,在我们的方程中,情绪指数表现出良好的预测能力。特别是t日的情绪指数增加一个百分点,t+1日的股票收益平均增加5.6个基点。然而,这种预测能力在t+2日就消失了(系数不再显著)。这一方面反映了虚拟世界的讨论的确对现实世界产生了影响,另一方面也说明股吧发帖对于股价的预测能力是有局限的,它更倾向于反映投资者“短期”情绪的影响,而不是长期的“基本面”。

综上,大数据为我们提供了分析海量文本的有力工具,帮助我们捕捉到了传统基本面分析工具所忽略的“投资者情绪”。然而就像天涯、西祠社区逐渐落寞一样,股票论坛也渐渐失去了人气;另一方面,以雪球为代表的财经类社交平台由于更加注重用户之间的互动而受到当前投资者的青睐。反映在经济学的研究中,研究者现在更多的关注一个“理性人”在他所在的社交网络中是如何与他人互动从而做出经济决策的。抓住这一热点,我们开始搜集投资者在线社交网络数据,并考察投资者社交网络是如何形成的以及信息是如何在网络中传播的。这一研究可以帮助我们更好地理解“圈子”如何影响我们的投资决策。目前这方面研究才刚开始,但相信在未来一定可以取得振奋人心的发现。

biao25

(金雪军为浙江大学互联网金融分院院长。原论文《网络媒体对股票市场的影响——以东方财富网股吧为例的实证研究》发表在《新闻与传播研究》2013年12期。本文编辑/丁开艳)

分享到:0
^
激活兑换码
关闭
请输入您的兑换码:
姓名:
单位:
职位:
邮箱:
手机号:
地址:
验证码:
激活
提示:
1、您的订阅周期将从兑换码被激活的当日开始计算。
2、同时激活多个兑换码,订阅期限会自动向后叠加。
3、如果您不想立即使用兑换码,可以在稍后任意时间激活,订阅码可赠予他人,但只能激活一次。
4、兑换码激活后,所绑定的授权用户仅限一人使用,不可多人分享账号。若发现违规使用,官方将做销号处理。