一、关键词提取
学校第十一次党代会党委工作报告全文约1.37万字,将报告文档做词云分析,生成报告词频的权重数据,导入学校海燕识别图像生成词云图,通过提取关键词揭示党代会报告的核心要点(如图1所示)。(注释:词云图是对文本文档中出现频次较高的“关键词”予以视觉上的突出,形成“关键词云层”或者“关键词渲染”,从而过滤掉大量的文本信息,使读者可以短时间内领略文本的主旨)
图1 海燕词云图
通过图1的词云图可以看出,建设、学科、发展、人才、特色、治理等词汇是大会报告中权重较大的,关键词词云图分析结果比较充分地展示了学校党代会报告的核心概念。
二、词频统计
将报告文档导入数据分析系统进行中文分词处理,首先直接进行分词再统计词频,词频位于前30位的结果如图2所示。另外,针对分词结果添加自定义分词(如“高水平”“新时代”“青科大”“强校”“二十大”等),进行词库重载后再进行分词并统计词频,位于前30位的结果如图3所示。
图2 报告文档词频统计前30位
图3 自定义分词后词频统计前30位
通过图2及图3可以看出,建设、学科、发展、人才、学校位于会议报告词频的前五位,围绕学科、人才推动学校建设发展是今后工作的中心。
三、情感分析
对文档进行一般性行处理,将处理好的文档导入数据分析系统进行文本情感分析(注释:文本情感分析也称为意见挖掘,是指用自然语言处理,文本挖掘以及计算机语言学等方法来识别和提取原素材中的主观信息以及词汇隶属的情感分类),文本情感分析结果如表1、图4所示。
表1 情感分析结果
图4 情感分析仪表盘图
通过图4可以看出,整篇报告结构合理,涉及到困难与不足约占3.82%,规划蓝图、奋斗目标、对策举措、鼓足干劲的部分占了85.50%,其他中性描述性词汇占比10.69%。整篇文档符合“二八理论”,是一篇十分合理的报告。
四、共词矩阵
将文档继续导入数据分析系统进行社交网络分析,形成共词矩阵,然后可视化展示词汇之间的关联性(如某两个词同时出现在一句话中或者一段中可以视为他们之间具有相互关系)。关联矩阵示意图如图5所示,矩形越大代表出现的频率越高,线越粗代表两者之间关系越紧密。
图5 共词矩阵的可视化展示
通过图5可以看出,建设、学科、发展、人才、学校等占据网络的核心位置,其他词汇都是围绕他们展开。关联性较强的词汇是(按关联性依次减弱排序):建设、发展、人才、创新。
五、趋势预测
采用类似于上述的方法,将报告前7页(第十次党代会以来的回顾)和后17页(今后5年的发展)分为两部分对比分析,结果如表2、图6(气泡图)所示,蓝色部分为报告前一部分,浅红色部分为报告后半部分。
表2 报告前后部分对比分析
图6 报告前后气泡图
通过表2和图6可以看出,今后将以建设、学科、发展、人才、特色、治理等为主要努力方向。
六、新词发现
分别对第十次党代会报告和第十一次党代会报告进行分词,并进行词频统计,得到表3。
表3 两次报告词频对比