WordStat是一个灵活且易于使用的文本分析软件 - 无论您是需要文本挖掘工具来快速提取主题和趋势,还是使用新的定量内容分析工具进行仔细和准确的测量。任何需要快速从大量文档中提取和分析信息的人都可以使用WordStat。此内容分析和文本挖掘软件可用于许多应用程序,例如开放式响应分析,商业智能,新闻报道的内容分析等。WordStat与SimStat统计数据分析工具-QDA Miner定性数据分析软件与Stata无缝集成-StataCorp的综合统计软件为您提供了其无比的灵活性,可以分析文本并将其内容与结构化信息(包括数字和分类数据)相关联。
使用文本挖掘浏览文档内容
- 使用WordStat分析大量非结构化信息。该软件每分钟可处理2500万个单词,使用聚类,多维缩放,邻近图等功能快速提取主题并自动识别模式。
使用浏览器模式快速提取含义
- 使用资源管理器模式快速轻松的从大量文本数据中提取含义,特别是对那些文本挖掘经验很少的人,只需单击一下,就可以提取文档中常用的单词,短语和突出的主题。
来自许多来源的进口
- 导入Word,Excel,HTML,XML,SPSS,Stata,NVivo,PDF和图像。连接并直接从社交媒体,电子邮件,网络调查平台和参考管理工具导入。
使用主题建模提取显著的主题
- 使用基于单词,短语和相关单词(包括拼写错误)的新自动主题提取功能,快速浏览非常大型的文本集中重要的主题。
探索连接
- 探索单词概念之间的关系,并检索与特定连接关联的文本段。
与结构化数据相关的文本
- 探索非结构化文本与结构化数据(例如日期,数字或分类数据)之间的关系,以识别子组之间的时间趋势或差异,或使用统计和图形工具(对应分析,热图,气泡图等)。
使用字典分类您的文本数据
- 使用现有词典实现全文分析自动化,或使用单词,短语,接近规则等创建您自已的分类模型。
为词典建筑获得特有的帮助
- 使用提取常用短语和技术术语并在文本集合中快速识别拼写错误,同义词,反义词和相关单词的工具,更快的构建词典。
使用机器学习分类您的文本数据
- 使用Naïve Bayes和K-Nearest Neighbours来开发和优化自动文档分类模型。
一次单击即可返回源文件
- 通过从功能,图表或图形返回到文本来验证或深入分析。您可以使用“关键词检索”或“上下文中的关键字”功能来检索句子,段落或整个文档。这在建立分类法或消除词义歧义时特别有用。您还可以将QDA Miner代码附加到检索到的段。
执行定性编码
- 将WordStat与新的定性编码工具(QDA Miner)结合使用,以便在需要时更准确的探索数据或特定文档或提取的文本段进行更深入的分析。
将非结构化文本转换为交互式地图(GIS映射)
- 将非结构化文本数据与地理信息相关联,并创建数据点,专题图和热点图的交互式图表,以及用于将位置名称,邮政编码和IP地址转换为维度和经度的地理编码Web服务。
自动提取命名实体
- 自动提取命名的实体,可以使用简单的拖放操作将其添加到分类字典中。
出口结果
- 轻松将文本分析结果导出为常见的行业文件格式,例如Excel,SPSS,ASCII,HTML,XML,MS,Word和图形(例如PNG,BMP和JPEG)。
使用PYTHON脚本转换文本
- 使用Python脚本及其全部开放源代码库预处理或转换文本文档,以便在WordStat中进行分析。
特征:
借助WordStat,数据分析师可以从大量文档中快速提取有价值的文本分析结果,这些结果包括客户反馈,电子邮件,开放式回复,采访记录,时间报告,法律文档,博客,网站等。这是WordStat的内容分析和文本挖掘功能的列表:
从许多来源导入
WordStat允许您从许多来源直接导入多语言内容:
- 导入文档:Word,PDF,HTML,PowerPoint,RTF,TXT,XPS,ePUB,ODT,WordPerfect。
- 导入数据文件:Excel,CSV,TSV,Access。
- 从统计软件导入:Stata,SPSS
- 从社交媒体导入:Facebook,Twitter,Raddit,YouTube,RSS
- 从电子邮件导入:Outlook,Gmail,MBox
- 从网络调查中导入:Qualtrics,SurveyMonkey,SurveyGizmo,QuestionPro,Voxco,Triple-S
- 从参考管理工具中导入:Endnote,Mendeley,Zotero,RIS
- 导入图形:BMP,WMF,JPG,GIF,PNG。自动提取与这些图像相关的任何信息,例如地理位置,标题,描述,作者,评论等,并将其转换为变量
- 从XML数据库导入
- ODBC数据库连接可用
- 从定性软件导入项目:NVivo,Atlas.ti,Qdpx文件
- 导入和分析多语言文档,包括从右到左的语言
- 监视特定的文件夹,并自动导入存储在此文件夹中的文档和图像,或监视对原始源文件或联机服务的更改。
整理数据
多种功能使您可以通过使分析过程简单明了的方式轻松组织数据:
- 快速分组,标记,排序,添加,删除文档或查找重复项,即:日期,作者或人口统计数据,例如年龄,性别或位置
- 轻松的对变量进行重新排序,添加,删除,编辑和重新编码
- 根据变量值过滤大小写
使用资源管理器模式快速提取含义
使用资源管理器模式可以快速,轻松的从大量文本数据中提取含义,这是专门为那些文本挖掘经验很少的人设计的。
使用主题建模工具,找出常用的单词,短语并提取文档中重要的主题。在任何时候,您都可以切换到专家模式,从而可以使用WordStat的功能。
使用文本挖掘浏览文档内容
在几秒钟内,探索大量非结构化数据的内容并提取有见地的信息:
- 提取常用的单词,短语,表达方式
- 在单词或短语上使用聚类或2D和3D多维缩放快速提取主题
- 使用邻近图轻松识别与目标关键字同时出现的关键字
- 使用链接分析功能探索单词或概念之间的关系
- 通过应用关键字同时出现条件(在一个案例中,一个句子,一个段落,一个n个单词的窗口,一个用户定义的段)以及聚类方法(一阶和二阶接近度,选择)来微调分析相似性指标
- 使用分层聚类,多维缩放,链接分析和邻近图来探索概念或文档之间的相似性。
使用主题建模来提取突出的主题
通过将自然语言处理和统计分析(NNMF或因子分析)结合使用,不仅对单词而且对短语也能使用理想的自动主题提取功能,从大型文本集中快速概览重要额主题和相关单词(包括拼写错误)。
在层析聚类分析中,一个单词可能仅出现在一个聚类中,主题建模可能导致一个单词与多个主题相关联,这一特征更现实的表示了某些单词的多义性以及该单词的多个上下文单词用法。
探索联系
使用网络图探索单词或概念之间的联系。使用三种布局类型检测共现的基础模式和结构:多维缩放,基于力的图形和圆形布局。
图是交互式的,可用于探索关系并检索与特定连接关联的文本段。
使用文本与结构化数据相关
探索非结构化文本与结构化数据之间的关系:
- 识别时间趋势,子组之间的差异,或使用统计和图形工具(偏差表,对应分析,热图,气泡图等)评估与等级或其他类型或数字数据的关系。
- 使用不同的关联度量的评估单词出现与名义或有序变量之间的关系:卡方,似然比,Tau-a,Tau-b,Tau-c,对称Somer's D,非对称Somers'Dxy和Dyx,Gamma,Person's R,Spearman's
使用字典对文本数据进行分类
使用现有字典实现全文分子自定化,或者创建您自已的单词和短语分类模型
在字典中,可以实现布尔值(AND,OR,NOT)和接近度规则(NEAR,AFTER,BEFORE),并使用正则表达式公式快速从文本数据中提取特定信息。
字典调节的词语修饰和词干支持多种语言,并且自动单词替换选项使您可以用目标关键字替换多个单词。用户定义的停用词列表可用多种语言提供。以避免不必要的常用词(例如他,她,它等)在分析中使用。
获得特有的词典构建帮助
通过提取常用短语和技术术语以及在文本集合中快速识别拼写错误和相关单词(同义词,反义词,全名,同义词,上位词,下位词)的工具,获得真正特有的计算机协助,以建立分类标准。
使用机器学习自动对文本数据进行分类
使用Naïve Bayes和K-Nearest Neighbours开发和优化自动文档分类模型。用户可以选择多种验证方法:leave-but-one,n-fold cross-validation,split sample。实验模块可用于轻松比较预测模型和精细分类模型。
分类模型可以保存到磁盘中,并稍后在QDA Miner中的独立文档分类实用程序,命令行程序或编程库中应用。
一键返回原始文档
通过使用关键字检索或上下文中的关键字来检索句子,段落或整个文档,从功能,图表或图形中返回文本,从而验证或深入分析。这在建立分类法或消除词义歧义时特别有用。
检索到的文本段可以按关键字或任何自变量排序。您可以将QDA Miner代码附加到检索到的段上,或以表格格式(Excel,CSV等)或文本报告(MS Word,RTF等)将其导出到磁盘。
执行定性编码
将WordStat与新的定性编码工具(QDA Miner)结合使用,以便在需要更准确的浏览数据或特定稳定或提取的文本段进行更深入的分析。
将非结构化文本转换为交互式地图(GIS映射)
将非结构化文本数据与地理信息相关联,并创建数据点,主题地图和热图的交互式图表,以及用于将位置名称,邮政编码和IP地址转换为纬度和经度的地理编码Web服务。
自动提取名称和拼写错误
自动提取命名实体(名称,技术术语,产品和公司名称),可以使用简单的拖放操作将其添加到分类字典中。
拼写错误和未知单词会自动提取出来,并与用户词典中的现有条目匹配,并且可以迅速添加到词典中。
汇出结果
将文本分析结果导出为常见的行业文件格式(例如Excel,SPSS,ASCII,HTML,XML,MS Word),流行的统计分析工具(例如SPSS和STATA)以及图形(例如PNG,BMP和JPEG)。
使用Python脚本转换文本
使用Python脚本及其全部开放代码库来预处理或转换文本文档,以便在WordStat中进行分析。
WordStat 9.0新功能
1. 完整的Unicode支持
总是尝试选择与语言无关的文本分析技术,这使用户能够分析50多种语言的文本数据。但是,要分析其默认Windows安装不支持的语言,用户需要更改某些Windows设置。虽然可以分析多种语言的数据集,但某些语言组合根本不可能。新的Unicode版本的WordStat允许人们在不更改任何设置的情况下分析其中任何一种,以及以前不支持的新语言。
2. R和Python预处理和后处理脚本的集成
2018年,向WordStat 8引入了创建Python预处理脚本的可能性。9.0版通过提供在R中创建预处理脚本的可能性来扩展此功能。更主要的是,现在可以用两种编程语言创建后处理脚本,允许对原始或转换后的文本数据或通过对这些文档进行内容分析获得的量化结果执行自定义分析。这样的特性为扩展WordStat的特性通过了无限的可能性,例如实现新的机器学习算法、统计建模技术或自定义数据转换。已包含示例脚本以计算文本可读性指标、检测语言、应用其他主题建模技术(LDA或STM)或创建使用机器学习(SVM、kNN等)的预测模型。
3. 自动拼写更正
从头开始编写了一个新的拼写检查引擎,以实现更快、更准确的拼写更正,从而允许对WordStat现有文本处理速度影响很小的情况下实现自动拼写更正功能。智能拼写更正甚至可以更正技术词汇、专有名词等未知术语的拼写,结果可以自动保存到替换列表中进行修改和更正。
4. 使用图表面板和过滤进行交叉制表
交叉表页面现在包括一个图表面板,允许您快捷绘制交叉表中选定行的分布,用于当前选定变量或任何其他变量的值。过滤列表框还允许分析所选变量的单个值或一组值的此类分布。
5. 交互式共现矩阵
共现页面添加了一项新的交互式矩阵功能,允许您专注于特定的共现。主要结果包括一个表格,其中显示了从各种共现统计中进行的选择。这种矩阵也是高度交互的,允许使用简单的拖放操作将特定行转换为新列,反之亦然。左侧的图表面板还允许评估特定共现在其他变量中的分布。还可以获得与特定共现相关联的全部文本段的视图。WordStat的这一新功能也可以通过选择应显示为列的目标项目(词或内容类别)、右键单击并选择共现矩阵来从频率列表中调用。
6. 导入Nexis UNI和Factiva文件
2020年在QDA Miner 6.0中引入,现在也可以在WordStat中从LexisNexishe Factiva输出文件导入新闻稿。在选择从这些服务获得的一个或多个.DOCX或RTF文件后,WordStat将提取新闻稿的标题和正文、其来源、出版日期和其他相关信息并将其存储在单独的变量中。
7. 主题模型的批处理
新的批处理功能允许通过系统的改变要提取的主题数量来计算多个主题模型,并且对于概率方法(例如NNMF),可以使用相同的设置执行多次运行以评估结果的稳定性。
8. 在关键字检索和KWIC结果上创建词云
现在可以直接从关键字检索和上下文关键字(KWIC)结果中获取交互式词云和词频表,从而可以识别与特定内容类别相关的词。或者出现在特定目标项目之前,之后的词。
9. 更强的邻近规则
邻近规则中的条件数量已从四个增加到至多二十个条件。
10. 通配符和字典交互的预览效果
在字典中使用通配符很强,但可能会很麻烦,因为它可以匹配您可能没有想到的项目。例如,像TAX*这样的条目可能允许您匹配TAX、TAXES、TAXATION,但也会匹配诸如TAXI、TAXONOMY、TAXIDERMY等词。此外,用于匹配项目和放置重复计算的WordStat规则也可能或产生意外由分类模型中的其他条目引起的结果。排除和分类页面右侧的新面板允许您识别新条目,这些条目将使用单词末尾的*通配符匹配,但也可能与字典中的其他条目发生冲突。
11. 项目文件密码保护
WordStat 9.0现在提供了对项目文件进行密码保护的可能性,将特定项目的访问权限限制为授权用户。一个对话框允许项目管理员创建新的用户账户并指定每个用户可以执行的操作。人们可能会限制数据编辑、数据导入或转换,以及项目数据、表格和图形的导出。或者,您可以选择让用户执行他们想要的任何转换,但阻止他们保护项目文件。
12. 清理数据的新选项
预处理页面现在包括自动从文本消息中删除URL以及新闻和采访记录中的发言人名称的选项。
13. 新的堆积面积图
交叉表页面的图表功能增加了创建两种类型的堆积面积图的可能性。
14. 对应图中的彩色项目
现在可以使用颜色渐变来表示指定项目或变量类别在第三(深度)维度或2D和3D对应图上的位置。至多可以选择四种颜色来创建这些渐变。
15. 改进的气泡图
现在可以转置气泡图的行和列。
16. 链接分析缓冲区
链接分析缓冲区允许人们返回到先前的链接图,然后向前移动。
17. 更快更准确的主题丰富
WordStat提供了“特有的主题丰富功能,可识别相关短语、潜在异常和拼写错误”。它还自动生成相关主题名称。在第9版中,此主题丰富功能现在是以前的两倍,并且执行更好的词义消岐以获得更准确的异常列表。它还为拼写更正提供了更好的建议。
18. 提高了现有拼写更正的速度和准确性
现有的拼写更正功能现在至多可提高30倍,只需一两秒钟即可为未知单词提供拼写更正建议。
19. 新的.PPRJ格式
创建了具有新文件扩展名(.pprj)的新文件格式,改进了对Unicode数据的支持。但是,WordStat 9保留了与全部软件以前版本的向后兼容性,并且可以打开和分析由QDA Miner、SimStat或旧版本WordStat创建的当前项目文件(.ppj)。
20. 许多额外的改进
对现有对话框、图形、数据管理和数据分析功能进行了几个附加选项和界面改进。
技术信息
操作系统:Microsoft Windows XP , 2000 , Vista , Windows 7,8和10
内存:从256MB(XP)到1GB(Vista , Windows 7, 8和10)
磁盘空间:40MB
睿于心 驰于行——北京环中睿驰科技有限公司
- 专业软件代理商
- 软硬件咨询服务
- 软件升级服务
- 订购软件相关书籍
- 代订购国内外软件
- 软件定制化培训服务