1928 政府工作报告主题词频(1992-2025)

关键字:政府工作报告主题词频(1992-2025) 发布时间:2025-05-22 查看更多详细信息
数据来源 由数据皮皮侠团队人工整理,全部内容真实有效
时间跨度 1992-2025年
区域跨度 国务院政府工作报告
数据格式 数据格式为Excel形式
数据简介

政府工作报告主题词频研究具有多维度的学术价值和现实意义。首先,高频主题词的分布与变迁是观测国家治理重心的“晴雨表”,通过对高频词的历时性分析,能清晰描绘政策重心的演变轨迹,揭示从脱贫攻坚向共同富裕迈进、从高速增长转向高质量发展的战略升级逻辑。其次,关键词的语义网络构成政策体系的“解剖图”,如“数字经济”与“新型基础设施”的共现关系,直观展现科技创新与产业升级的协同布局,为研判产业链现代化路径提供依据。本团队参考余振、李晨曦(2022)的文章,按照如下步骤得出政府工作报告主题词频:

我们将1992 -2025年国务院政府工作报告中的目标任务部分作为文本数据的采集对象,其中宗教政策、侨务政策、祖国统一、外交和国际形势等内容未被列入研究当中。筛选出用于研究的文本后,按照段落将每年的政府工作报告划分为若干个自然段,并将每段内容导入到excel表格,每段内容对应一个单元格;

然后对不影响研究结论的标题和段落做删除处理;

然后构建专业领域词典和停用词词典。其中,停用词词典为1893行的“中文停用词表”;专业领域词典的构建选取1993年、2003年和2013年的国务院政府工作报告作为样本。初始化一个空集合来保存所有词汇。对于每个年份,使用jieba对文本进行分词,然后将分词后的所有词汇加入集合。集合中的词汇即为专业领域词典;

在应用LDA主题模型时,将最优主题数量设定为32,输出各主体频次排名前30的特证词。最后将各主题中的关键词在历年政府工作报告中的词频数加总,得到政府工作报告主题词频。


数据展示

image.png

image.png

参考文献

余振, 李晨曦. 加入WTO对中国开放型经济体制发展的影响研究: 基于中央政府工作报告文本的实证分析[J]. 世界经济研究, 2022(4): 3-17. DOI:10.13516.