分享好友 最新资讯首页 最新资讯分类 切换频道
NLTK(语料库)
2024-11-07 21:38

本系列博客为学习《用Python进行自然语言处理》一书的学习笔记。 2.1 P41

NLTK(语料库)

古腾堡语料库主要包含一些文学书籍。 先看一个例子,查看古腾堡语料库包含的文本名称

utenberg是NLTK预先帮我们加载的语料库,我们可以把gutenberg看做是一个PlaintextCorpusReader对象。

PlaintextCorpusReader::fileids():该方法返回语料库中的文本标识列表。

PlaintextCorpusReader::words(fileids):该方法接受一个或多个文本标识作为参数,返回文本单词列表

PlaintextCorpusReader::raw(fileids):该方法接受一个或多个文本标识为参数,返回文本原始字符串。

PlaintextCorpusReader::sents(fileids):该方法接受一个或多个文本标识为参数,返回文本中的句子列表。

平均词长、平均句子的长度、文本中每个词出现的平均次数

网络文本语料库中包括火狐交流论坛、在纽约无意听到的话、加勒比海盗电影剧本、个人广告以及葡萄酒评论等等。 webtext同样可以看做是一个PlaintextCorpusReader对象。

语料库被分成15个文件,每个文件包含几百个按特定日期和特定年龄的聊天室收集的帖子,例如:10-19-20s_706posts.xml包含2006年10月19日从20多岁聊天室收集的706个帖子。

nps_chat可以看做是一个NPSChatCorpusReader对象。

NPSChatCorpusReader::fileids():该方法返回语料库中的文本标识列表。

NPSChatCorpusReader::posts(fileids):该方法接受一个或多个文本标识作为参数,返回一个包含对话的列表,每一个对话又同时是单词的列表。

布朗语料库是一个百万词级的英语电子语料库,这个语料库包含500个不同来源的文本,按照文体分类,如:新闻、社论等。我们可以先看看布朗语料库中包含哪些类别

brown可以看做是一个CategorizedTaggedCorpusReader对象。

CategorizedTaggedCorpusReader::categories():该方法返回语料库中的类别标识。

CategorizedTaggedCorpusReader::fileids(categories):该方法接受一个或多个类别标识作为参数,返回文本标识列表。

CategorizedTaggedCorpusReader::words(fileids, categories):该方法接受文本标识或者类别标识作为参数,返回文本单词列表。

CategorizedTaggedCorpusReader::sents(fileids, categories):该方法接受文本标识或者类别标识作为参数,返回文本句子列表,句子本身是词列表。

路透社语料库包含10,788个新闻文档,共计130万字。文档被分成了90个主题,按照训练和测试分为两组。路特社语料库中的类别是项目重叠的,因为新闻报道往往涉及多个主题。

reuters也可以看做是一个CategorizedTaggedCorpusReader对象。

该语料库是55个文本的集合,每个文本都是一个总统的演说。这个集合的一个显著特性是时间维度。

inaugural同样可以看做是一个PlaintextCorpusReader对象。

。。。未完

gutenberg、webtext和inaugural是PlaintextCorpusReader的实例对象。

PlaintextCorpusReader成员方法

 

nps_chat是NPSChatCorpusReader的实例对象。

NPSChatCorpusReader成员方法

 

brown和reuters是CategorizedTaggedCorpusReader的实例对象。

CategorizedTaggedCorpusReader成员方法


最新文章
新手如何做好独立站SEO?-这篇文章手把手教会你,适合刚刚如何入门的小白。
提到独立站的SEO,相信刚入行的小伙伴的第一反应,SEO不就是写文章嘛。确实在内容为王的时代SEO中的内容营销是非常重要的一部分
电子快排系统是什么?
电子快排系统是一种在汽车换挡杆上配置的装置,其主要功能是接收和传输电子信号,通过电脑分析发动机实际转速,实现汽车降挡后自
jetson nano(B01)配置pytorch和torchvision环境+tensorrtx模型转换+Deepstream部署yolov5(亲测可用)
jetson nano 配置pytorch和torchvision环境+tensorrt模型转换+Deepstream部署yolov5(亲测可用) 因为一次
专业团队运营,内容优劣有保障
在繁忙的都市生活中猫咪以其特别的魅力,成为了多人心灵的慰藉。它们时而慵懒地晒太阳,时而调皮地追逐玩耍,总能激发出人们内心
搜索引擎优化工具全集:Google与雅虎实战指南
本文旨在介绍一系列基础工具,以协助进行搜索引擎优化(SEO)。这些工具涵盖了Google反向链接分析等实用功能,以及雅虎等其他搜
年轻人的苦,寺庙都清楚
继夏季露营、围炉煮茶之后,寺庙游突然爆火,成为年轻人旅游新宠。携程数据显示,2023年2月份以来,寺庙相关景区门票订单量同比
ai智能文字转语音-ai智能语音转写
随着科技的飞速发展人工智能技术在各个领域中的应用越来越广泛其中,智能文字转语音(TTS)和智能语音转写(STT)技术逐渐成为人
SEO关键词工具有哪些?助力网站流量增长的秘密武器!
欢迎了解SEO相关知识,图片中使用工具为:“147SEO工具”在如今竞争激烈的互联网世界里,想要让网站脱颖而出,关键词优化是SEO(
亚马逊自动广告的重要性
众所周知,亚马逊的sponsor广告分为自动和手动两种模式,区分也很简单,手动是可以设置的,自动是不能设置关键词的。谈到亚马逊s
互点工具设计_今日免费互点设计教程
摘要:互点工具设计,今日免费互点设计教程,新片场素材小编韩彤互点工具设计,今日免费互点设计教程相关内容整理,如果您对互点工