分享好友 最新动态首页 最新动态分类 切换频道
语音识别的技术原理是什么?苹果手机闹钟声音大小怎么调「语音识别的技术原理是什么?」
2025-02-15 15:20

本题已收录至知乎圆桌:人工智能 · 语言智能,更多「人工智能」相关话题欢迎关注讨论

简要给大家介绍一下语音怎么变文字的吧。需要说明的是,这篇文章为了易读性而牺牲了严谨性,因此文中的很多表述实际上是不准确的。对于有兴趣深入了解的同学,本文的末尾推荐了几份进阶阅读材料。下面我们开始。

首先,我们知道声音实际上是一种波。常见的mp3等格式都是压缩格式,必须转成非压缩的纯波形文件来处理,比如Windows PCM文件,也就是俗称的wav文件。wav文件里存储的除了一个文件头以外,就是声音波形的一个个点了。下图是一个波形的示例。

cript>cript>


在开始语音识别之前,有时需要把首尾端的静音切除,降低对后续步骤造成的干扰。这个静音切除的操作一般称为VAD,需要用到信号处理的一些技术。

要对声音进行分析,需要对声

楼上张俊博的回答比较仔细的讲解了基础的经典语音识别算法。我想对算法背后的含义做一个简单的解释,对涉及到的特征提取(包括分帧)、音素建模、字典、隐式马尔科夫模型等可以参阅楼上的回答。

语音识别的第一个特点是要识别的语音的内容(比声韵母等)是不定长时序,也就是说,在识别以前你不可能知道当前的 声韵母有多长,这样在构建统计模型输入语音特征的时候无法简单判定到底该输入0.0到0.5秒还是0.2到0.8秒进行识别,同时多数常见的模型都不方便处理维度不确定的输入特征(注意在一次处理的时候,时间长度转化成了当前的特征维度)。一种简单的解决思路是对语音进行分帧,每一帧占有比较短固定的时 长(比如25ms),再假

鉴于传统架构的语音识别方法在其他的回答中已经有了详细的介绍,这里主要介绍end-to-end语音识别架构,主要涉及到RNN神经网络结构以及CTC。

Outline:

1、 语音识别的基本架构

2、 声学模型(Acoustic Model,AM)

  • a) 传统模型
  • b)CTC模型
  • c) end-to-end模型

3、 语言模型

4、 解码

----------------------------------------------------

1、 语音识别的基本架构

cript>cript>



最新文章
3.6亿年前的树种,在浙江温州“救活”了,它曾是恐龙的口粮
近日,在苍南县大渔镇笔筒树原生境保护区内,一株株新生的笔筒树幼苗茎杆挺拔、叶片舒展。记者了解到,笔筒树是起源于3.6亿年前的珍稀物种,经过当地系统性保护,种群数量稳步增长。  作为中生代侏罗纪时期恐龙的主要食物之一,笔筒树被
北京朝阳第4宗“巨无霸”组合地块正式挂牌 起始价126亿元
新京报贝壳财经讯 3月27日,北京市规划和自然资源委员会披露,3月24日上架的2宗预申请地块“转正”,正式挂牌出让。这两宗地块中,朝阳区平房乡黄杉木店平房区城中村改造项目2107-01、02、03地块、孙河组团土地储备项目2902-73地块R2二类居
京东“春晓计划”走进湖南:发布《2025商家成长白皮书》与属地帮扶计划
2025京东商家成长白皮书暨春晓计划全新升级发布会现场。红网时刻新闻3月26日讯(记者 陈彦兵 通讯员 刘海江)3月26日,2025年京东商家成长白皮书暨“春晓计划”全新升级发布会在长沙举行。京东发布了最新的属地帮扶计划,并分享了《2025商
浙江海洋经济:耕万顷碧波 启新质新域
潮新闻客户端 记者 徐文罡 通讯员 周佳莉浙江是陆域资源小省,也是海洋资源大省。坐拥26万平方公里海域面积、6486公里海岸线、4370个海岛……发展海洋经济,是经济大省挑大梁的重要支撑、题中要义。2024年1月20日,全国首个省级海洋经济发
优酷:虚拟拍摄占比提升至40% 线上作品同比增长300%
【环球网科技综合报道】3月26日,在第十二届中国网络视听大会网络公益高峰论坛上,优酷发布2024年社会责任暨ESG报告 。报告显示,2024年,优酷不断探索新的影视制作模式,发展虚拟拍摄、影视制作车等行业前沿技术,释放影视行业生产力。前
访Vidda郭琛:技术先行规模反哺,三色激光已成标配
在刚刚结束的AWE 2025展会上,家电及消费电子行业的前沿科技与创新理念汇聚一堂。而在此之前,Vidda已于3月14日举办的“超级玩家”新品发布会,在AWE开幕之前就火了一把!本次发布会上,Vidda推出的发现X 2026款超高刷+极致黑QD-Mini LED A
数百万外卖骑手“工伤保险”扩围在即,美团:近三年已投入14亿元
极目新闻通讯员 隽蒙新就业形态人员职业伤害保障试点(以下简称“新职伤”)自2022年7月1日在北京、上海、四川、广东等7省市启动试点以来,已覆盖外卖骑手、网约车司机、快递员等1000多万名新就业形态人员。近日,人力资源和社会保障部部长
首趟!临汾“银发旅游列车”开行
“各位旅客,您乘坐的临汾-湛江路段Y402列车开始检票了,请您携带好自己的行李,依次检票上车。”3月21日上午9时,我市首趟“银发旅游列车”在数位老年旅客的欢声笑语中徐徐启程。这趟承载着“老有所乐、老有所享”愿景的专列,既是铁路部
天津:家庭二套住房最低首付比例或将由30%调整为20%
记者从天津市住建委获悉,进入3月份以来,本市房地产市场交易进一步回升,日交易量环比逐步增长,到访、带看等先行指标持续活跃,“新天津人”加速入场,交易占比明显提升。据统计,今年1-2月,全市新建商品房销售面积104.52万平方米,同比
贵阳高新区:向“优”向“新”塑造高质量发展新优势
营商环境是企业投资兴业的土壤,科技创新则是推动经济社会发展的核心动力。围绕“成为全省创新驱动发展示范区、深化‘放管服’改革示范区”的总目标,贵阳高新区坚守“发展高科技、实现产业化”的初心,牢牢把握“高”“新”发展定位和首要
相关文章
推荐文章
发表评论
0评