分享好友 最新资讯首页 最新资讯分类 切换频道
nltk(3)——语料库
2024-11-07 21:04

NLTK包含众多一系列的语料库,这些语料库可以通过nltk.package 导入使用。每一个语料库可以通过一个叫做“语料库读取器”的工具读取语料库,例如:nltk.corpus

nltk(3)——语料库

每一个语料库都包含许多的文件或者是很多的文档。若要获取这些文件的列表,可以通过语料库的fileids()方法。

import nltk.corpus.brown    #导入brown语料库

brown.fileids()

每一个语料库都提供了众多的多去数据的方法。例如:对于文档类型的语料库提供读取原始为加工过的文本信息,文本的单词列表,句子列表,段落列表

from nltk.corpus import brown

brown.raw(brown.fileids()[1])   #读取brown中第二个文本的信息

brown.words(brown.fileids()[1])   #读取brown中第二个文本的单词

brown.sents(brown.fileids()[1])   #读取brown中第二个文本的句子

brown.paras(brownfileids()[1])     #读取brown中第二个文本的段落

每一个方法的参数都可以提供多个文档名称或单个,当提供多个文档名称并用逗号隔开时,获取的文档将是单个文档的链接总和。

brown.words(["ca02",brown.fileids()[3]])         #获取文档ca02和文档四的单词,此处注意,当多个文档时,传入的参数是一个list

获取文本单词词频

from nltk.corpus import brown

news_text = brown.words(categories='nes')

fdist = FreqDist(news_text)

modals = ['can','must','could','willl,''might']

for m in modals:

print(m + ":", fdist[m])

FreqDist() 方法获取到每个单词的出现次数

FreqDist({'the': 5580, ',': 5188, '.': 4030, 'of': 2849, 'and': 2146, 'to': 2116, 'a': 1993, 'in': 1893, 'for': 943, 'The': 806, ...})

fdist.keys()    #获取所有的键

fdist['the']     #获取对应的键的值

最新文章
深圳网站建设服务公司:企业建站要注意这几点
企业一般都是交给专注的公司来做,虽说企业只要提供想法给设计公司,盯住项目开发的进度就行,但是在这个过程中,企业还是有不少
荆州网站SEO优化,全方位提升流量与品牌声望
荆州正规网站SEO推广优化,致力于全方位提升网站流量与品牌影响力。通过专业策略,优化关键词排名,提高用户体验,助力企业在线
腾讯推广技巧和方法
在当今的互联网时代,腾讯作为中国最大的互联网公司之一,其产品和服务已经深入到我们生活的各个角落。无论是微信、QQ、腾讯视频
ai写作在线工具-ai写作文案生成器,文案大师的得力助手
高效的文案创作成为各类企业和个人品牌的核心竞争力。AI写作在线工具,这一文案生成器的出现,不仅解放了创作者的双手,更激发了
网页seo优化
SEO的专业性远超你的想象!我们要做的是协助搜索引擎而不是欺骗它!它涉及到的不止是网站结构、内容质量、用户体验、外部链接这
苹果新款M4:搭载四个Thunderbolt控制器,高带宽带来更强连接性能
近日,科技爱好者@midnight_john1在社交媒体上分享的一组对比图引起了广泛关注。图中展示了苹果公司的M3与全新M4芯片模具的显著
网站建设-网站设计制作-网站优化
长期做网络营销推广工作的小伙伴应该都深有体会就是工作鼓噪乏味,每天做着重复而繁琐的工作,做SEO辛辛苦苦到处发帖、交换友链,
沈阳SEO优化攻略,揭秘网站排名提升之道
沈阳网站SEO排名提升策略,通过优化关键词、内容质量和结构,提高网站在搜索引擎中的可见度。采用专业工具和数据分析,精准定位
跨境电商平台的海外推广政策解读
跨境电商平台的海外推广政策解读。近年来,跨境电商作为国际贸易的重要组成部分,其发展速度之快、潜力之大,已成为推动全球经济
移动seo快排推广 移动SEO快排秘籍,高效推广助您登顶搜索前列
在当今这个数字化时代,互联网已成为企业营销不可或缺的重要战场,而搜索引擎优化(SEO)作为连接企业与潜在客户的桥梁,其重要