2177 上市公司数字技术风险暴露变量数据(2010-2024)
| 数据来源 | . |
| 时间跨度 | . |
| 区域跨度 | . |
| 数据格式 | excel格式 |
数字技术风险暴露变量作为量化企业数字技术应用风险水平的核心指标,是衡量上市公司在数字化转型进程中风险管控能力的关键标尺。在当前数字经济蓬勃发展的时代,企业积极投身数字化转型,但这一过程中也伴随着数据安全、网络安全等各类风险。该变量通过文本挖掘与自然语言处理技术,将企业数字技术风险相关的定性信息转化为可量化的定量指标,有效填补“风险识别—程度度量—影响评估”分析链条中的数据空白,为监管部门优化数字经济监管政策、高校开展数字技术风险研究、投资者评估企业运营风险提供权威可靠的数据支撑。
本数据核心来源为2010—2024年中国A股上市公司年度报告中“管理层讨论与分析(MD&A)”部分的文本信息。数据构建过程严格遵循“文本获取—分词处理—关键词拓展—数据标注—模型训练—指标计算”的标准化流程,具体构造方式如下:
使用数据皮皮侠数据库上市公司年报中的MD&A信息,基于《工业和信息化领域数据安全风险信息报送与共享工作指引(2021)》及《国家网络安全事件应急预案(2017)》选取关键词,并采用Word2vec模型训练各年份所有的MD&A语料后进行词集扩展。再随机抽样10%的数据,使用Openai的ChatGPT和智谱清言 的GLM人工智能模型分别进行标注,使用的提示词为“该论述是否反映了企业面临数字技术风险的暴露?”和“该论述是否反映了企业采取措施对数字技术风险进行了防范?”,对于模型标注不一致的样本进行人工复核。随后将其转化为模型训练集:对标注为 “风险暴露” 的文本赋值 - 1(对应负面情感),无关为0,标注为 “风险防范” 的文本赋值 1(对应正面情感),两者不一致的再人工判断。按照 0.6:0.4 的比例划分训练集与验证集,参考既有研究设置模型参数开展预训练至最终模型,获得全部数据的分类结果。最后构建企业数字技术风险暴露指标,Digi_Risk_Exposure_raw为原始指标,Digi_Risk_Exposure为将Digi_Risk_Exposure_raw为负的值按原文方法改为0后的指标。该指标的设计聚焦 “极端风险” 与 “防范能力” 的制衡关系,被定义为 企业年度MD&A信息中“负面文本的负面情感概率最大值” 与 “正面文本的正面情感概率平均值” 之间的差值。
股票代码 | 年份 | Digi_Risk_Exposure_raw | Digi_Risk_Exposure |
股票简称 | 中文全称 | 更多数据 |

[1]陆瑶,施函青,周欣怡.中国企业数字技术风险暴露对企业价值的影响——来自大语言模型的文本分析证据[J].经济研究,2025,60(02):73-89.