当前位置:首页 > 全国数据 > 正文内容

2007-2024年上市公司-投资者情绪数据

admin3个月前 (09-22)全国数据13

根据任晓松、孙莎、马茜(2024)提出的方法体系,投资者情绪指标的构建可遵循以下系统化流程:

步骤一数据获取:定向采集2007至2024年间财经网络社区(包括股票主题贴吧及行业论坛)发布的全部股票相关帖子,提取发帖人标识、发布时间、标题文本、阅读量等结构化信息。

步骤二文本预处理:对采集的原始文本实施系列净化操作:首先过滤无效及重复内容,随后采用jieba分词工具进行中文分词处理,剔除通用及领域特定停用词,最终通过TF-IDF算法将文本数据转换为机器可识别的数值向量。

步骤三情感分类与日度情绪计算:采用朴素贝叶斯分类模型将帖子划分为乐观、中性、悲观三类情感倾向。针对上市企业i,依据第n日乐观帖子数(posi,n)与悲观帖子数(negi,n)构建情绪因子:

smi,n=ln(1+negi,n1+posi,n)

该公式通过加1平滑处理保障数值稳定性,对数变换实现数据分布规范化。

步骤四年度情绪指标构建:以自然年为观测周期,对周期内所有交易日的情绪因子smi,n进行算术平均,形成衡量企业i在第t年投资者情绪水平的综合指标senti,t,有效捕捉市场参与者的中长期情感特征。

该指标体系通过整合网络文本大数据与机器学习技术,为量化分析投资者心理偏差对资本市场的影响提供可操作的测量工具。

数据名称:上市公司-投资者情绪数据

数据年份:2007-2024年

相关数据

股票代码、年份、 s_in、sent_(i,t)。

数据截图

下载地址:

付费查看下载地址


扫描二维码推送至手机访问。

版权声明:本文由一窝数据网发布,如需转载请注明出处。

本文链接:http://www.yiwoshuju.com/1833.html

分享给朋友:

“2007-2024年上市公司-投资者情绪数据” 的相关文章

2002 至 2022城市市政公用设施水平情况表(地级市)

2002 至 2022城市市政公用设施水平情况表(地级市) 样本范围:地级市数据,没有直辖市数据 文件格式:Excel 指标说明:统计年度、省份代码、省份名称、人口密度、人均日生活用水量、供水普及率、公共供水普及率、燃气普及率、建成区供水管道密度、人均道路面积、建成区路网密度、建...

2000-2023年夜间灯光数据(NPP-VIIRS)

数据介绍夜间灯光数据是一种遥感数据,通过卫星上的传感器探测到夜晚地球的灯光、火光等信息,这种数据能够很好地作为人类活动的表征。这些数据被广泛应用于城市规划、环境监测、经济发展等多个领域。NPP-VIIRS,即National Polar-orbiting Partnership(国家极地轨道卫星计划...

1978-2020年CCAD涉农统计数据库

CCAD,全称China Academy for Rural Development-Qiyan China Agri-research Database (CCAD), Zhejiang University,是一个集新型农业经营主体、涉农市场主体、数字农业、绿色农业、农业生产、农产品研究、乡村研...

中国行政村级区划代码及经纬度

随着时代的进步,中国的行政区划体系不断完善,每一个行政村级单位都拥有其独特的区划代码。中国行政村级区划的经纬度数据,更是精准地描绘了每一个村落的地理位置。从北国的雪域高原到南疆的热带雨林,从东部的浩瀚大海到西部的广袤戈壁,每一个村落都以其独特的经纬度坐标,镶嵌在祖国的版图上。数据名称:中国行政村级区...

2008-2020年地级市机器人安装密度、存量密度数据

机器人安装密度通常指的是单位面积或单位人口所拥有的工业机器人数量。在国内,随着制造业的转型升级和智能制造的推进,工业机器人的安装密度在不断提高。特别是在一些制造业发达的地区,如长三角、珠三角等区域,工业机器人的安装密度相对较高。机器人存量密度则是指一个地区已经安装的工业机器人的总量与该地区相关指标(...

2000-2021年地级市-城市生态韧性数据

城市生态韧性是指在生态文明理念指导下,城市系统如何促进现代文明发展与生态环境保护之间的良性互动,以及城市在面对各种内外部冲击时,其生态系统能够保持稳定性、适应性和恢复性的能力。本数据包含原始数据、代码do文件、参考文献、最终结果。数据名称:地级市-城市生态韧性数据年份:2000-2021年数据来源:...

发表评论

访客

◎欢迎参与讨论,请在这里发表您的看法和观点。