大数据告诉你背后的规律

通过文本信息可以分析出最难得到的情绪。在数字世界里,通过建立关联关系、因果关系等,可以基于海量数据和不停更新的算法,通过读懂“情绪”,理解人们行为背后的驱动力,进而对投资或抛售的行为做出解释。有了大数据的手段,北京大学的经济学家们和大数据企业正在共同探寻“不符常理”背后的经济学规律。

通过文本信息可以分析出最难得到的情绪。在数字世界里,通过建立关联关系、因果关系等,可以基于海量数据和不停更新的算法,通过读懂“情绪”,理解人们行为背后的驱动力,进而对投资或抛售的行为做出解释。

本报记者 张佳星

特朗普胜了总统大选,川大智胜涨6%以上;希拉里输了,西仪股份跌9%;文章出轨,伊利股份却因为文章的妻子是马伊琍而上涨……中国股市的“奇葩”表现让人直呼“看不懂”。

这些看似不符常理的事件是不是就出离了经济学规律?北京大学国家发展研究院(以下简称“北大国发院”)经济学教授沈艳认为“并不是”。

近日,北大国发院发布中国投资者情绪指数。沈艳说:“通过网络大数据、模型和算法等复杂运算得出的投资者情绪指数,可以帮助研判宏观经济形势、理解金融市场。”也就是说,掌握了足够的数据,进行深度分析,“奇葩”事件是可以找到缘由、并作出研判的。

有了大数据的手段,北京大学的经济学家们和大数据企业正在共同探寻“不符常理”背后的经济学规律。“这仅仅是开始,团队后续还会利用网络大数据和先进的人工智能方法进行系列指数研究,对于我们理解本土金融市场,特别是股票市场提供帮助。”北大国发院院长姚洋表示,指数用了很多大数据深度学习和机器学习上的先进方法,研究获得了专业大数据公司百分点公司在技术上的支持,这也是一次很好的产研合作研究的探索。

大数据“看脸色” 情绪里“暗藏”股价线索

“伊利上涨的部分原因是由于舆论和伦理站在了马伊琍这边。”沈艳说,在一些网站上,可以看到马伊琍的声援者表述:我们都在声援马伊琍,如果你也痛恨小三,请支持伊利股份。

买股票不是因为看好企业本身,此类投资者被研究者们称为“噪音交易者”。“他们的情绪显然是非理性的,但一定会对股价造成影响。”沈艳说,为了对这样的影响因素做出度量,研究团队收集了网络上能够反映投资者情绪的上亿条数据,采用深度学习的方法,来度量投资者的情绪。

投资者情绪并不是个案,一些事件对于股价的影响,在最初几天经常是由情绪带入。百分点董事长兼CEO苏萌举例道,13日美联储大幅升息以及此前几天比特币的暴跌,都引起了相关论坛或网站上的情绪反应,也引起了道琼斯指数的下跌。

“恐慌情绪会蔓延。”苏萌指出,一些情绪如果拥有了“群众基础”,将变成可以进行分析的数据,并“暗藏”股价线索。他解释:“比如说比特币大跌、美联储加息,我们在微博、论坛里都能看到大量情绪信息,我们用自然语言处理技术处理这些杂乱无章的信息,让算法能够识别和分析。”

苏萌介绍,判断的基础包括对分词的准确率和实体的识别率。百分点的分词准确率做到了98.97%,在实体识别的准确率上做到了91.45%。

“通过文本信息可以分析出最难得到的情绪。”苏萌说,在数字世界里,通过建立关联关系、因果关系等,可以基于海量数据和不停更新的算法,通过读懂“情绪”,理解人们行为背后的驱动力,进而对投资或抛售的行为做出解释。

算法“同传”不解渴 用中国金融情绪词典注解

从海量信息里读懂情绪,最大的挑战是准确。

“‘这可真是好啊’,这句话在中国的大部分语境中,是一句有讽刺意思的话。”沈艳说,团队面对的上亿、零散、杂乱的用爬虫技术归拢来的网爬信息,而让计算机对如此海量、如此不同(来自不同说话习惯的人)的词句都进行理解,

并能够与说话人想表达的意思“没有偏差”,是其中最艰难的部分。

很显然,已经成熟的国外文本分析算法仅能用于参考,用它们来“算”出中国话的特定含义很难不偏差,甚至可能“算晕”。“大多数算法是在英文语境中开发的,我们做了实验,表明把它们拿到中国金融市场上来用,准确度很难让人满意。”沈艳说。和教小孩子一样,团队先给完成特定任务的机器一本准确的“词典”。“专门针对中国股市的情绪,我们首先做了一个可以应用的产品,叫做中国金融情绪词典。”

北大国发院经济学博士陈赟表示,英文单词是有限的,中文的词语却是无限的。同为金融领域的英文词典可以迁移过来,但词典法之外,团队还采用了同义词技术等帮助机器理解词典之外的词,以及它们与哪些词语拥有情绪上的相似特征。

此外,为了让机器对情绪的把握更准确,团队还通过人力找出部分词语交给机器学习,通过小样本(相较于网爬样本,人工标注样本量小)标注集,完善机器对整个大数据的理解。“例如‘庄家’在经济学领域是特定含义,但经常会被网友写作‘庄稼’,也可能被错写成‘押家’。”沈艳举例道,“根据上下语境,一些和庄家没有任何关系的词,我们的算法也可以判断出来,这也是我们能有所突破的原因。”

“人工标注的质量是非常重要的,有一些词典之所以不太好用,就是因为标注的质量不能保证。”百分点集团首席科学家杜晓梦评价,算法获得结果的准确与机器对所学数据的理解关系密切。

语言的时代特点也是团队需要考量的一个因素。陈赟说:“近些年,我们的语言变化非常迅速,现在00后用的语言和我们似乎不是一套语言,他表述正面情绪和负面情绪的方式与传统词语也大相径庭。”

为此机器也做了相应的学习。陈赟解释,“算法会利用句子结构去推测着理解,在学习了一段时间之后,机器会通过位置等信息判断,但不会看词语。例如‘割韭菜’这个词,随后变成‘香菇’‘西红柿’……只要结构相仿,也可以识别出语句中的情绪。”

AI能指导投资 预测力仍在“修炼”

通过与历史事件的匹配,研究团队检测了投资者情绪指数的可用性。算法构建的模型将2008年到2018年的网上信息作为数据库,进行指数分析,用一个折线图反映。其所绘制的转折点与历史事件时间点相一致。

沈艳展示的比对图显示,2015年6月中旬到7月初的投资者情绪指数负值最大,对照股市记录,这个月的股指下跌三成。此外,对其他标志性事件,情绪指数也能够做出准确的推断。人工智能(AI)的模型能计算出投资者情绪,除了对已发生情况有所反应,还会揭示对未来市场信息的预测。沈艳说:“能在一定程度上反映投资意愿和投资者对市场预期,进而对于收益率,对于波动,对于交易量都有一定的预测能力,并能够判断发生的程度。”

“投资者情绪指数的预测准确率和国外同款相比还是不错的。”沈艳介绍,团队将通过机器深度学习训练出的模型用以预测(数据采集时)还没出现过的股票行情,准确率超过80%。

目前,研究团队已收集了全网A股所有上市公司的相关文本数据,可以针对不同企业、不同行业给出情绪的数据度量。沈艳表示,该指数预期将持续发布,至于能不能为投资者指导投资,预测能力到底有多少,还需要进一步量化,进一步研究。

沈艳强调,无论应用上能发挥多大效能,在学术研究方面,给学界理解中国股市的所谓“奇葩”提供了新视角,可以为金融机构和资产管理部门提供参考。

随便看看别的百科