当前位置:主页 > 经济论文 > 股票论文 >

基于文本挖掘的投资者情绪指数构建及其应用研究

发布时间:2020-10-23 05:04
   随着网上股票交易和信息交互及共享的发展,更多的投资者选择在股票论坛发表其对股市或股票的观点和评论等文字信息。这些股票论坛通常参与的投资者人数较多,帖子文本发布和更新速度较快,而之前大多数文献却停留在存量文本数据的获取和研究。本文分别选取我国官方媒体证券三大报新闻和东方财富网创业板股吧论坛的实时股票帖子,利用计算机自然语言处理技术对帖子文本信息进行有效分类,采用专家系统的情绪值算法提取出投资者情绪,并利用相关指标对证券相关文本的信息含量问题进行实证研究。本文的研究内容主要包括情感倾向性词典的构建、投资者情绪的提取和实证应用三个部分。首先,本文爬取了证券三大报新闻和东方财富股吧帖子作为文本语料库。然后,结合主流中文词典,利用文本分词和TF-IDF词频统计等自然语言处理技术,分别采用手动词典构建和半自动词典构建方法建立专属于证券官方媒体和股吧论坛的中文情感倾向性词典。再者,通过词袋技术和情感降维等计算方法得到三大报舆情指数和股吧个股投资者情绪等相关指标。最后,分析投资者情绪指数与股市或个股收益率、成交量等变量之间的关系。具体而言,官方媒体信息含量的度量采用向量自回归模型,分析三大报舆情指数与上证指数收益率的关系,并使用脉冲响应分析和方差分解方法研究了证券三大报舆情指数对上证股指收益率的影响。股吧信息含量则利用个股投资者情绪采取横截面回归和时间序列回归,研究了投资者情绪、帖子数量和情绪一致性对个股收益率和成交量的影响。从证券三大报的实证结果来看,三大报舆情指数与股指收益率呈负相关关系,但舆情指数对股指收益的影响贡献率较低,说明三大报的新闻报道所包含的信息迅速被市场反应。基于东方财富网股吧的实证,结果表明:(1)个股投资者情绪与其同期收益率呈显著正向关系,说明帖子情绪具有一定信息含量,但是对投资者情绪对未来股价的预测能力有限;(2)个股情绪一致性对成交量呈显著负向关系,即个股情绪一致性程度越小或分歧度越大时,同期和未来的个股日成交量更大,且对成交量的影响程度较大;(3)股票日帖子数量对每日个股收益回报率产生显著的正向影响,而且能影响未来一日的个股收益率。本文的主要创新之处:第一,在数据获取形式方面,现有文献主要依靠存量文本数据提取股吧论坛的投资者情绪,而本文采取每日爬取文本信息,可以实时把握投资者的舆论消息。这种定时爬取和云服务器的收集与维护的方式更有利于提升信息统计精确性和时效性。第二,分别采用手动构建和半自动构建方法建立了专属证券新闻的《证券投资情感倾向性词典》(SISD)和专属股吧论坛的《股吧财经情感倾向性词典》(CSGSD),对填补中文自然语言处理中细分的财经词典的空白做出一定的贡献,对证券新闻和股票论坛帖子及评论文本可作更有效的情感分析。总体而言,本文通过研究不同媒体平台的文本数据体现的投资者情绪对股票市场的影响,反应了证券媒体信息含量及影响力度。本文的研究结论不仅对证券市场政策颁布和舆情监管的实施提供了参考依据,对投资者也具有参考价值。
【学位单位】:电子科技大学
【学位级别】:硕士
【学位年份】:2019
【中图分类】:F832.51
【部分图文】:

网民,普及率,互联网,信息媒介


第一章 绪论第一章 绪 论1 研究背景与意义随着互联网与数字媒体的迅速普及,中国也开始全面进入新媒体和大数据时,互联网已成为人们发布获取信息的重要平台。信息媒介呈现出多元化的趋势,效的信息媒介从传统的报刊杂志、电视逐步扩展到网络资讯、搜索引擎、社交网自媒体和论坛等。据中国互联网络信息中心(CNNIC)最新报告显示[1],如图 1-所示,截至 2018 年 12 月,我国互联网用户数达 8.29 亿,全年新增网民数 5653,较之 2017 年底,人数同比增长 3.8 个百分点。其中,我国约八成网民使用电、手机等设备浏览网络新闻,该用户规模已达到 6.75 亿,同比增长 4.3%。

路线图,路线,投资者情绪,文本


与技术路线文献研究表明,投资者情绪分析大多停留在数值型计算与论证过程中极少考虑文本型数据。因为数字统所以常被用作投资者关注的代理变量。与文本数量或比,文本帖子体现的投资者情绪则是一个相对难以获子内容之中的特征,往往反映了投资者对市场或个术研究价值。若碍于以往的自然语言处理等计算机技分析以及投资者情绪提取或许并非易事。但目前而言然语言技术艰难问题的攻克和稳步发展,越来越多眼网络文本信息的处理,这为后期开展相应研究提,依托计算机技术构建投资者情绪并进行分析就是本图 1-2。证券媒体平台

流程图,服务器,数据获取,网络爬虫


第三章 SISD 词典和 CSGSD 词典的构建 requests 请求,经过 IP 代理和 UserAgent 对 HTTP 包可抓取到所需数据并返回云服务器与网络爬虫。表 3-1 云服务器实例详情可用区 IP 地址 网络类型 配置4d7pdj4d7pdjZ华南1119.23.107.221(公)172.18.233.247(私)专有网络1 vCPUEcs.n4.smaSPIDER
【参考文献】

相关期刊论文 前10条

1 清华大学国家金融研究院课题组;吴晓灵;李剑阁;王忠民;;完善制度设计 提升市场信心 建设长期健康稳定发展的资本市场[J];清华金融评论;2015年12期

2 徐健锋;许园;许元辰;张远健;刘清;;基于语义理解和机器学习的混合的中文文本情感分类算法框架[J];计算机科学;2015年06期

3 夏火松;甄化春;;大数据环境下舆情分析与决策支持研究文献综述[J];情报杂志;2015年02期

4 谢德仁;林乐;;管理层语调能预示公司未来业绩吗?——基于我国上市公司年度业绩说明会的文本分析[J];会计研究;2015年02期

5 刘维奇;刘新新;;个人和机构投资者情绪与股票收益——基于上证A股市场的研究[J];管理科学学报;2014年03期

6 赵龙凯;陆子昱;王致远;;众里寻“股”千百度——股票收益率与百度搜索量关系的实证探究[J];金融研究;2013年04期

7 施荣盛;陈工孟;;个人投资者能够解读公开信息吗?——基于盈余公告附近信息需求行为的研究[J];证券市场导报;2012年09期

8 刘红忠;何文忠;;中国股票市场上的“隔夜效应”和“午间效应”研究[J];金融研究;2012年02期

9 王光磊;;MongoDB数据库的应用研究和方案优化[J];中国科技信息;2011年20期

10 赵妍妍;秦兵;刘挺;;文本情感分析[J];软件学报;2010年08期


相关硕士学位论文 前2条

1 杨东强;情感增强词向量构建方法及应用[D];华东师范大学;2015年

2 李国林;基于语义分析的Web金融文本信息情感计算[D];江西财经大学;2012年



本文编号:2852589

资料下载
论文发表

本文链接:https://www.wllwen.com/jingjilunwen/jinrongzhengquanlunwen/2852589.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户46b85***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com