分享好友 最新动态首页 最新动态分类 切换频道
语料库技术与应用—基于维基百科构建日语平行语料并爬取谷歌翻译语音(mp3)
2024-11-07 21:16

准备:wikipedia-parallel-titles项目(老师给的

语料库技术与应用—基于维基百科构建日语平行语料并爬取谷歌翻译语音(mp3)

          This document describes how to use these tools to build a parallel corpus (for a specific language pair) based on article titles across languages in Wikipedia.

          本文档描述了如何使用这些工具基于维基百科中不同语言的文章标题构建并行语料库(针对特定的语言对)。

首先第一步

  1. 确定自己选的小语种的 639-1码, 例如 日语的 639-1码为 “ja”
  2. 把 “ja” 与单词 “wiki”拼接得到 “jawiki”

然后访问 http://dumps.wikimedia.org/jawiki ,如图

可到” https://en.wikipedia.org/wiki/List_of_ISO_639-2_codes” 上查看自己选的小语种的639-1码

 

3.选择 “201903XX” 或 “latest” ,进去下载以 “-page.sql.gz” 和 “-langlinks.sql.gz” 结尾的两个压缩包

4.提取并行标题语料:运行该脚本命令

 

并出现如图

1: 下载下来的两个.gz压缩包需和 build-corpus.sh 脚本在同一个路径下

2: 若执行了脚本后 titles.txt 什么都没有并出现如图所示

 

解决方法: 打开scripts目录下的 extract.pl 、utf8-normalize.sh 这两个文件,把其中的

“iconv -f utf8 -t utf8 –c” 语句 修改为 “iconv -f utf-8 -t utf-8 –c” (其他地方的”utf8”不用改

4:生成 titles.txt 可能需要几分钟,请耐心等待。

 

 

出来是这个样子的。

步骤二

把语料放到谷歌翻译上并下载其朗读语音

 

https://blog.csdn.net/qq_40224992/article/details/88546823

参考的是这篇文章,不过也需要作些修改。(感谢作者,不然就要动用按键精灵了

日语的

说一下这个url如何找,谷歌浏览器

谷歌翻译,在左侧输入日语,点击进入检查(F12,再点击发音那个按钮

 

右侧那个链接就是了。

最后mp3(女声

到此,感觉这个项目sese的有没有。。。

总结:别再犯list[]01的错误

总结:别再犯list[]01的错误

总结:别再犯list[]01的错误

第一个下标是0

第一个下标是0

第一个下标是0

还有,文件夹要先创。

 

 

最新文章
AIGC重塑文旅行业新场景、新业态、新消费
(来源:中陆必得旅游规划)编者按AIGC(人工智能生成内容)在文旅产业中发挥着越来越重要的作用。通过深度学习、自然语言处理和计算机视觉等技术,AIGC能够自动化地分析和理解大量数据,从而生成丰富多样的内容。这不仅提高了内容创作的效
AI代码生成器——Cody
Cody由Sourcegraph开发,是一款人工智能驱动的编码助手,它不仅仅是一个简单的代码完成工具,更是一项功能强大且富有创新精神的工具。其主要优势在于能够深度理解代码编写的上下文,为开发人员提供准确、有意义的建议和评论。 Cody能够利用
会议OA项目之会议审批(亮点功能:将审批人签名转换为电子手写签名图片)
Java实现支持人脸识别的会议签到系统,方便参会人员高效签到,提高会议签到的安全性。采用深度学习进行模型训练以提高识别准确率,需要设计并优化相关的人脸识别算法。基本功能​ 1、支持基本的会议管理功能,包括会议申请、开始会议、会议
用AI绘画,让创意从未如此简单!搜狐简单AI带你开启智能创作之旅
在这个信息化高速发展的时代,创意和效率是任何行业中立足的关键。然而,对于许多人来说,面对日益增多的工作任务,如何高效且富有创意地完成工作成为了不小的挑战。想象这样一个情境:小李,一位营销专员,正在为即将到来的产品发布会寻找
WordPress 发布文章,出现发布失败与更新失败的解决办法
新版的Wordpress出来后,用新版的覆盖了之前老板的文件之后,出现了无法发布文章,更新老文章失败等错误提示。 这是什么原因呢?我通过网络查询,收集了以下原因和解决方法。1.古腾堡编辑器出错 这种情况非
影视建站遇到的坑与修复过程 苹果cms+海螺模板
主题设置后台 安装PHP扩展 后台快捷菜单配置添加 海螺主题设置,/admin.php/admin/conch/theme免费解析网:http://api.momimi.cn/?url=站长交流群:707031200海螺模板完美修复版2020.01.04带模板独立后台管理系统的多功能模板。使用此模板务
空间、算力、数据、场景“模力福地”重磅礼包发布!深圳福田打造人工智能产业高地!
12月11日,“模力福地”行动方案发布会暨人工智能先锋城市核心区高质量推进大会在深业上城城市云客厅举行。深圳市人工智能产业办、重点人工智能企业精英和深港两地专家,共同见证福田区在人工智能领域的重要举措与创新布局。“模力福地,智
扒一扒大模型应用隐形冠军:服务1600 企业、200 业务场景,分分钟就可构建专属应用
白小交 发自 凹非寺量子位 | 公众号 QbitAI服务1600+企业、200+业务场景直接落地。这位大模型应用的隐形冠军不藏了。他们打造大模型应用开发平台,客户能够开箱即用。服务企业覆盖央国企、金融、政务、民生、制造、零售等领域。就在今天,
网站站长角色深度解析:他们是如何驾驭互联网的?
网站站长角色深度解析:如何驾驭互联网? 随着互联网技术的迅猛发展和普及,站长这一职业角色也逐渐成为了互联网生态中不可或缺的一环。他们如何驾驭互联网?今天我们就来深度解析网站站长的角色及其工作内涵。网站站长,顾名思义,即负责
深圳SEO秘籍,关键词优化攻略,助力企业网站排名飞升!
深圳快速SEO,专注关键词优化,助力企业网站快速提升排名。本文揭秘高效策略,助您优化关键词,实现网站流量激增。随着互联网的飞速发展,企业对的需求日益增长,在这个竞争激烈的市场环境中,如何让企业网站在搜索引擎中脱颖而出,成为众
相关文章
推荐文章
发表评论
0评