2056 文本分析合集数据

关键字:文本分析 发布时间:2025-08-25 查看更多详细信息
数据来源 .
时间跨度 2002-2025
区域跨度 省级、地市级、上市公司文本
数据格式
数据简介

近五年的学术研究里,文本分析领域像在铺一条看得见的路,每篇文献都是路上的砖石。2020 年起,中文文献的砖石一块块累加,到 2024 年已铺就 1627 块的规模;外文文献也没落下,490 块砖石紧随其后,稳稳跟在这条路上。2024 年时,外文文献的砖石还在以 8.00% 的速度添新,中文文献添砖的节奏虽慢了些,却也始终没停。这条由文献铺成的路,悄悄记下了文本分析领域受关注的变化,而本数据要探究的智能制造、探索式创新、大数据、数字化转型这几个主题,它们在学术圈受关注的轨迹,正藏在这条路的砖石纹理里,等着被梳理清楚。

image.png

本项目构建了一套完整的文本数据分析流程,涵盖从原始政府报告和企业年报到最终结构化分析数据的全过程转换。整个处理流程分为三个主要阶段,通过多个Python脚本协同工作,实现了文本预处理、信息提取和数据聚合的自动化操作。

原始数据预处理阶段从多种格式的文档开始处理。地级市政府报告通常以Word文档格式存在,首先需要通过专门的转换程序将其批量转换为纯文本格式,去除格式信息但保留完整的文字内容。随后对所有文本文件进行中文分词处理,这是中文文本分析的关键步骤,将连续的中文句子切分成有意义的词汇单元。分词结果被保存在专门的目录中供后续使用。基于分词结果,系统会计算预定义关键词在每个文档中的出现频次,形成词频统计矩阵,其中行代表不同的文档,列代表不同的关键词,数值表示该关键词在对应文档中的出现次数。省级政府报告和上市公司年报遵循相同的处理逻辑,最终每类数据都生成相应的词频统计文件。

信息提取与结构化整理阶段专注于从文件名中提取关键的分类信息。每个原始文件的命名都包含重要的元数据信息,需要通过解析算法准确提取。对于省级数据,采用相对简单的时间分割策略,将年份前的所有中文内容识别为省级行政区名称。地级市数据的处理更为复杂,需要先建立完整的省级行政区名称库,包括标准省份名称和各种自治区的完整及简化形式,然后采用贪婪匹配算法优先识别最长的省份名称,避免部分匹配导致的错误,最后提取省份名称和年份之间的内容作为城市信息。直辖市作为特殊情况需要单独处理,确保省份和城市信息的一致性。上市公司数据基于证券市场的标准化命名规则,通过位置提取的方式获得年份和股票代码信息。所有提取的信息都会作为新的列添加到原有的词频数据中,形成包含地理、时间和内容信息的完整数据集。

关键词聚合与最终分析阶段将分散的词频信息按照研究主题进行重新组织。系统预定义了五个主要的研究维度,每个维度包含相关的关键词集合。通过遍历每个样本的所有关键词列,识别属于特定主题的词汇,计算其词频总和,形成主题级别的聚合指标。这种聚合方式将原本分散在数百个具体关键词上的信息浓缩为几个核心指标,既保留了重要信息又大大简化了后续分析的复杂度。最终输出的数据集包含了样本的基本分类信息、时间信息和各主题维度的聚合指标,可以直接用于区域比较分析、时间趋势研究和行业特征分析,为政策研究和企业分析提供了标准化的数据基础。




数据指标

智能制造version1"智能制造","智能机器","智能生产","机器人","全自动","全机器"

 

智能制造version2"中国制造2025","工业4.0","互联网+","自动化","信息化","信息化管理","信息化应用","数字化","网络化","集成化","虚拟化","智能化","物联网","虚拟现实","3D打印","人工智能","生物识别","模式识别","神经网络","云计算","云平台","云服务","云技术","大数据","海量数据","数据中心","数据存储","数据分析","数据挖掘","互联网","移动互联网","互联","机器人","工业机器人","数控机床","数控系统","传感器","智能物流","智能服务","智能终端","绿色制造","高端装备制造","军民融合","智能电网","能源互联网","智慧能源","智能家居","智慧城市","智慧交通","智慧医疗","智慧社区","电子政务","新能源汽车","电动汽车","电动车","动力电池","充电桩"

 

探索式创新:"探索","搜索","变化","冒险","试验","灵活性","发掘","革新"

 

大数据:"大数据","海量数据","数据中心","信息资产","数据化","算力","区块链"

 

数字化转型:"人工智能","商业智能","图像理解","投资决策辅助系统","智能数据分析","智能机器人","机器学习","深度学习","语义搜索","生物识别技术","人脸识别","语音识别","身份验证","自动驾驶","自然语言处理","大数据","数据挖掘","文本挖掘","数据可视化","异构数据","征信","增强现实","混合现实","虚拟现实","云计算","流计算","图计算","内存计算","多方安全计算","类脑计算","绿色计算","认知计算","融合架构","级并发","EB缓存","物联网","信息物理系统","区块链","数字货币","分布式计算","差分隐私技术","智能金融合约","移动互联网","工业互联网","互联网医疗","电子商务","移动支付","第三方支付","NFC支付","智能能源","B2B","B2C","C2B","C2C","O2O","网联","智能穿戴","智慧农业","智能交通","智能医疗","智能客服","智能能源","智能投顾","智能文旅","智能环保","智能电网","智能营销","数字营销","无人零售","互联网金融","数字金融","Fintech","金融科技","量化金融","开放银行"


数据展示

image.png