一、基于HMM状态结构调整的非特定人语音识别(英文)(论文文献综述)
雷杰[1](2021)在《基于低资源语音识别系统的硬件实现》文中指出语言识别技术作为人工智能机器学习的一个重要分支,在物联网技术和软件开发上具有重要的地位,而在普通的声学模型当中,语音识别系统处在低资源条件下时,采用传统的高斯混合-隐马尔可夫声学模型(GMM-HMM)会带来识别精度低、参数规模过大等问题,本文提出了基于BN-SGMM-HMM的声学模型来解决GMM-HMM模型的不足。该模型在声学特征方面,通过基于瓶颈(B N,Bottle Neck)层的神经网络来进行提取,从而提高声学特征的可区分性与鲁棒性,同时在训练过程中引入Dropout策略来防止过拟合问题;在声学模型方面,采用子空间高斯混合模型(SGMM,Subspace-Gauss Mixture Model),使得模型参数规模有明显地降低。这两方面的改进也提升了低资源语音识别系统的识别率,本文的实验证明,采用BN-SGMM-HMM低资源语音识别系统,能够在有限的训练语料下训练出良好的识别效果。而在硬件实现部分,以BN-SGMM-HMM声学模型为基础,采用开源中文语料库进行训练,并将训练好的声学模型在树莓派上得以实现,并用麦克风作为语音的输入,通过Kaldi内部解码器对输入的语音进行识别,最终将识别结果显示在终端上。该语音识别系统的优点是低成本,无需申请昂贵的语料库或者API授权,且全程无需联网。该语言识别系统的创新点在于:在软件开发方面,采用BN-SGMM-HMM声学模型作为基础模型并采用Kaldi语音识别工具包来训练模型,该工具包内部拥有特征提取脚本以及语言模型生成工具,改变了以往语音识别开发需要经验丰富的工程师的局面,减少了语音识别系统开发人员的周期;而在硬件移植方面,由于硬件实现使用的是开源硬件树莓派,用户广泛且内部环境开源,相较于其他ARM系开发板以及ASIC而言降低了开发难度以及流片所带来的成本。
唐健[2](2020)在《深度学习语音识别系统中的若干建模问题研究》文中研究表明语音作为人类交流的自然方式,其作为人机交互的手段拥有的先天优势。自动语音识别要为了让计算机能够“听懂”人类的语音,实现由语音序列向文本序列的转化。伴随着深度学习发展,基于深度神经网络的语音识别如今已经成为主流。现在语音识别后端建模有两种框架:混合和端到端架构。在此背景下,本论文集中在两种架构下语音识别的若干建模问题研究。一方面,在混合架构下针对建模中的实用性问题(如时延问题,噪声鲁棒性问题)进行研究,‘减’少实际应用场景(如时延要求、噪声)对性能的影响;另一方面,针对端到端语音识别架构的不足,研究目前端到端模型的合理性问题(如注意力向量优化和多层级标签建模)。通过在模型搭建中加入‘低成本’但有效信息(如后验信息、多层级标签信息),为识别性能做‘加’法。首先、针对语音识别系统的时延问题,本文研究基于长短期记忆(Long Short Term Memory,LSTM)网络的在线语音识别声学建模。单向LSTM网络结构无时延但缺乏对未来时序的利用,双向LSTM网络充分利用了上下文时序信息但存在高时延的缺点。针对在线语音识别声学建模的高性能、时延可控的要求,本文提出了一种基于注意力机制的LSTM层结构(Attention-based LSTM,ALSTM)。ALSTM结构通过LSTM记忆历史时序,通过注意力机制建模一定窗长内的未来时序。实验结果表明由多层ALSTM串联构成的声学模型能获得与基于BLSTM识别系统相仿的性能表现。其次,针对语音识别系统的噪声鲁棒性问题,本文提出了稠密残差网络(Densely Connected Residual Network,DenseRNet),并用于构建声学模型。DenseR-Net采用残差网络的方式构建模型的基础单元,基础单元的连接采用稠密网络的稠密连接的方式。整体可以视为稠密网络和残差网络的融合。DenseRNet通过更充分利用多分辨率的隐层表达使得声学模型更具备鲁棒性。实验结果与可视化分析共同说明,该模型对不同信噪比语音具有鲁棒性。再次、针对注意力向量的优化问题,本文在端到端语音识别模型中探讨了使用模型后验信息对其优化的方法。我们尝试将后验注意力模型引入语音识别中并根据任务的特点进行相应的结构调整。实验表明模型的识别性能未达预期,并且模型受到曝光偏差的影响加剧。注意到该问题,本文进一步提出基于散度距离的惩罚项和交替更新策略(Alternate Learning Strategy,ALS)用于缓解曝光偏差问题。前者通过散度距离损失纠正后验信息使用所带来的曝光偏差,后者通过在编码-解码模型训练阶段引入采用推论方式计算的“辅助步”。实验表明,本文最终提出的扩展后验注意力模型(Extended Posterior Attention Modeling,EPAM)相较于传统的编码-解码模型在语音识别上具备了明显的性能优势。最后,结合现有研究工作中多层级标签建模不成熟、提升效果不明显的问题,本文提出了一种基于多文本序列间对齐映射的多层级标识端到端语音识别建模方法。语音识别中的目标文本序列可以是词级、字符级、子词级文本序列。多层级文本序列的获取成本很低但包含丰富的信息,并且我们注意到多层级文本序列间存在隐性的对齐映射关系。基于以上原因,本文将多文本序列间对齐映射关系引入端到端语音识别建模中,并提出将该对齐关系引入端到端模型搭建和解码过程中。具体来说,本文设计了一个全新的交互解码器结构用于生成多层级的文本输出预测;在解码阶段,本文提出了联合解码算法,该算法可以进一步对多层级预测输出结果进行交叉验证。在Switchboard和WSJ数据集的实验结果共同表明,基于多层级标识的端到端语音识别模型相比于传统的端到端语音识别系统可获得15%以上的相对词错误率下降。
马夺[3](2020)在《基于LAS模型的中英文混杂语音识别研究》文中研究表明自动语音识别是自然语言处理中一个重要研究领域。近年来随着深度神经网络的蓬勃发展,自动语音识别社区开始使用深度神经网络技术来处理语音识别任务。部分研究者把深度神经网络直接融合在基于HMM-GMM模型上形成HMM-DNN,另一部分研究者借鉴机器翻译领域的端到端的思想,直接构建端到端语音识别系统。端到端语音识别系统搭建相对比较简单,不需要繁杂的对齐与发音词典构建工作,展现出了良好的应用前景。在中文和英语这种拥有丰富数据资源的语言上,端到端语音识别模型性能已经接近基于HMM-DNN模型性能,但是对于中英混杂这一低资源的语音识别任务,端到端语音识别系统却没有获得很好的性能。本文在中英混杂数据有限的情况下,研究端到端语音识别的建模方法。主要关注两种端到端语音识别模型:连接时序分布(CTC)和基于注意力机制的编解码网络(LAS)。研究改善连接时序分布模型的编码器性能和改善基于注意力机制的编码器性能,并尝试结合两种模型来改善中英混杂语音识别性能。在低资源的中英混杂数据上,利用不同模型的优点来改善端到端模型的性能,从而提高语音识别准确率。本文以新加坡和马来西亚地区的中英文混杂语音作为研究对象,首先建立一个基于HMM-DNN的最优中英混杂语音识别系统作为对比系统。其次训练一个字符级循环神经网络语言模型辅助端到端模型的解码过程。在端到端模型方面,本文选取连接时序分布网络和基于注意力机制的编解码网络,首先向两个模型添加卷积神经网络的预输入网络来提升模型性能,降低GPU运存占用。其次在连接时序分布网络辅助注意力机制的混合结构中,从编码器结构、注意力机制类型、计划抽样参数以及模型超参数调整等多方面入手进行调优工作,最终在中英混杂数据集SEAME的两个测试集上,词错误率(WER)分别为24.4%和17.6%,和传统的基于HMM-DNN的语音识别系统的测试结果基本相同。
王雨萌[4](2019)在《神经网络时序分类方法在语音识别中的应用研究》文中指出随着人工智能领域研究的深入以及大数据语料的不断积累,语音识别技术得到突飞猛进的发展,神经网络开始大规模应用于语音识别技术,端到端语音识别成为近年来人工智能研究的热点课题。然而,由于特定说话人含有不同发音特性、不同语种发音特性不同等原因,导致端到端语音识别模型对中文的识别准确率偏低。基于以上背景,本文结合中文语言模型对现下主流端到端语音识别框架的结构进行研究和改进,以提高端到端语音识别框架对于汉语的识别准确率和效率。首先,本文设计基于传统隐马尔科夫-混合高斯声学模型结合词典和N-gram语言模型的建模方法作为本文的基线实验。在对隐马尔科夫-混合高斯模型的研究中,对语音信号易于受到上下文内容影响的问题,设计利用上下文相关的三音素声学模型,通过考虑每一音素相邻的前后音素,进而提升模型性能。同时,对语音易受到说话人发音特性影响的问题,设计融合说话人自适应技术的隐马尔科夫-混合高斯模型的建模方式,以提高本文基线实验的识别准确率。其次,本文针对端到端框架对中文识别准确率较低的问题,提出结合语言模型的非完全端到端框架的语音识别方法,将非完全端到端框架应用于神经网络时序分类方法对语音识别的研究中。针对LSTM-CTC端到端模型计算复杂度高,训练速度耗时过长的问题,本文提出了一种改进的映射长短期记忆时序网络,用以优化模型的训练速率。同时针对语音特征的长时依赖性并不只有正向传播的特点,在端到端模型中设计采用双向映射长短期记忆时序网络,替代固有的单向长短期记忆时序网络,通过对语音特征进行双向提取,从而提高模型的准确率。最后,选取希尔贝壳公司的AISHELL语音数据库对本文所提出的方法进行实验验证,针对实验过程中双向神经网络训练易产生过拟合的问题,将语音数据库通过速度扰动技术进行扩充、实验。最终实验结果显示,模型的准确率和速率较基线实验结果都得到显着提升。
包希日莫[5](2016)在《面向蒙古语的语音识别声学建模研究》文中认为自动语音识别是具有巨大应用价值和广阔应用前景的人机交互技术,而声学建模则是创建语音识别系统的关键环节与核心技术,也是语音识别研究的重点和热点之一。本文对蒙古语语音识别声学建模相关的若干问题进行了深入的探索和研究。目前,在国际信息化浪潮的推动下,蒙古族自治区域正在快速步入信息化社会。在这种历史背景和条件下,开展本文的研究工作,不仅具有重要的学术价值,而且具有积极深远的社会现实意义,它必将有益于广大蒙古族同胞生活、学习、工作自动化程度的提高,必将有益于蒙古族自治区域信息化水平的提升。本文研究工作在蒙古语语音识别声学建模的模型选择、相关支持技术以及参数估计等三个基本问题方面均有所涉及,具体研究内容和创新点如下:1.蒙古语声学模型拓扑结构优化模型选择方面,针对当前创建蒙古语语音识别系统时只能采用经验式或启发式方法选择较大建模对象(指其读音由两个或两个以上的音子构成的建模对象)声学模型拓扑结构的情形,本文提出了分别基于标准遗传算法和标准粒群优化算法的两个蒙古语较大建模对象声学模型拓扑结构优化算法,并给出了算法实现相关问题的解决方案和高斯核非均匀分配系统的训练策略。与以往的进化方法在其它语言语音识别领域中的类似应用相比,本文算法都具备同时优化模型状态数与各状态高斯核数量、摒弃高斯核均匀分配以及自动搜索等优点。在验证和应用上述模型拓扑优化算法的实验中,与分别使用一种传统方法选择蒙古语较大建模对象声学模型拓扑结构的两组基线系统相比,利用本文算法选择蒙古语较大建模对象声学模型拓扑结构的所有语音识别系统,其识别性能均占显着优势;相对于表现最好的基线系统,分别使用本文提出的一种算法的两组拓扑优化系统,其词准确率的提升幅度分别达到了11.52个百分点和10.42个百分点。2.蒙古语声学模型状态聚类:问题集设计建模相关支持技术方面,针对目前蒙古语语音识别界亟待设计出合理、完善的蒙古语问题集以有效支持声学建模过程中基于决策树的参数绑定方法的情形,本文讨论了蒙古语问题集设计中的原则、音子集的选择、音素表的完善、复合元音的归类、松与紧概念的应用等关键问题的解决方案,给出了一个蒙古语标准音问题集,指出了该问题集相对于已有蒙古语问题集的优越性。决策树方法与数据驱动方法的多次对比实验中,利用本文蒙古语问题集的前者每次都带来了略高于后者的系统识别率,这说明本文的蒙古语问题集能够有效支持基于决策树的状态聚类与绑定方法;问题集对比实验中,本文给出的问题集的表现好于目前已公开发表的其它蒙古语问题集,这说明它的设计更加合理、更为完善。3.蒙古语声学模型区分性训练模型参数估计方面,针对蒙古语口语中的众多读音相似的音子的相互误识正在严重影响蒙古语语音识别系统的识别性能的现状,本文将通过增强模型之间的区分度提高系统识别性能的区分性训练技术首次应用在蒙古语语音识别领域中。具体地,将最大互信息、最小词错误和最小音素错误等区分性训练准则系统地应用在蒙古语声学建模任务中,设计了应用方案,解决了训练数据列表的自动调整、训练语料外三音子模型的合成、文本文件的自动生成与处理等若干技术问题,提出并实现了能够直观了解区分性训练效果的音子级解码和基于混淆矩阵的解码结果对比方案,基于区分性训练系统及其基线系统的混淆矩阵,发现和总结了蒙古语音子在语音识别过程中的元音和辅音之间很少发生误识现象、弱短元音是元音与辅音相互误识情况中的主要的元音音素、容易相互误识的辅音只有有限的若干对等误识规律。实验结果表明,各种准则的区分性训练均能使蒙古语语音识别系统的识别率得到较大幅度的提高,区分性训练系统的词准确率的提升幅度最高达到了6.44个百分点。4.蒙古语声学模型自适应训练同样在模型参数估计方面,针对基于众多说话人语料创建的蒙古语非特定人语音识别系统在交付给特定说话人使用时识别率不理想的情形,本文将通过重估模型参数使系统声学模型更具特定说话人特征的说话人自适应技术首次应用在蒙古语语音识别领域中。具体地,在设计应用方案并解决回归类树叶子结点数的设置等若干技术问题的基础上,将最大似然线性回归类算法和最大后验概率类算法系统地应用在蒙古语声学建模任务中。此外,本文还探索了说话人自适应技术的更深层次的用途:对说话人自适应算法以及它们的有效组合在蒙古语声学建模过程中的性别自适应效果进行了实验验证,并在利用说话人自适应算法进行蒙古语方言土语的自适应方面做了一些探索性的工作。实验结果表明,各种参数变换的说话人自适应算法均能使蒙古语语音识别系统的识别率得到较大幅度的提高,它们带来的词准确率的提升幅度最高达到了32.75个百分点;说话人自适应技术在蒙古语声学建模中具有很好的性别自适应效果,性别自适应带来的词准确率的提升幅度最高达到了47.08个百分点;在不受性别自适应影响的情况下,只对声学模型的高斯核均值向量进行调整的说话人自适应算法和算法组合具有使标准音蒙古语语音识别系统的针对鄂尔多斯土语的识别率得到有效提高的方言自适应能力,它们带来的词准确率的提升幅度最高达到了7.67个百分点。
周盼[6](2014)在《基于深层神经网络的语音识别声学建模研究》文中提出语音识别的终极目标是使人与机器之间能够像人与人之间一样自如的交流。声学模型性能的好坏直接影响到整个语音识别系统的准确性。过去几十年,高斯混合模型-隐马尔科夫模型(Gaussian Mixture Model-Hidden Markov Model, GMM-HMM)在语音识别声学建模方法中一直起着主导作用。GMM-HMM框架由于具备较完善的理论体系,包括区分性训练、自适应等成熟的配套算法,以及HTK等开源工具,而受到众多研究者的追捧。近年来,深度学习(Deep Learning)理论在机器学习领域兴起,其对语音识别方向也产生了深远影响。基于深度神经网络-隐马尔科夫模型(Deep Neural Network-Hidden Markov Model, DNN-HMM)的声学模型混合建模方案迅速取代传统的GMM-HMM框架,成为当前主流语音识别系统的标配,基于DNN-HMM新框架的相关算法研究也受到语音识别领域的广泛关注。在这样的背景下,本论文围绕深度神经网络声学建模及其在自动语音识别中的应用,进行了较系统而深入的研究。首先,为了提升基于神经网络的声学建模的能力,本文分别从特征域和模型域两个方面进行了探索。在特征域,本文借鉴传统TANDEM的方法将神经网络看成一种提取后验概率特征的预处理器,并基于所提取的区分性特征进行GMM-HMM建模。本论文提出了一种基于竞争信息的TANDEM系统改进方法。具体来说,我们首先基于解码过程中所生成的词图挑选训练样本的竞争信息,并基于该竞争样本训练相应的“竞争信息”神经网络,以对传统的只基于正例进行神经网络训练的TANDEM算法起到增强作用。接着,在直接使用神经网络作为声学分类器的模型域方面,本文针对中文语音识别系统中的多流声学特征,提出了一种中间层融合建模方案,该方案充分利用深度神经网络结构和学习算法的特点,在深度神经网络的中间某隐层进行多个特征流的中间层特征融合,并在融合特征的基础上继续学习更高层的特征表示。该算法在深度神经网络的框架下有效的利用了多流特征的互补特性,提升了识别系统的性能。然后,本文在深层神经网络声学建模效率方面进行了深入的研究,以解决大规模语音数据声学建模的可应用性问题。面向真实语音识别系统的海量训练数据、深层神经网络的超大规模模型参数、以及模型结构导致的传统训练算法不可并行性,使得训练效率问题成为深层神经网络声学建模实用化的最大瓶颈。针对这样的情况,我们分析了深层神经网络的学习算法,找到影响其效率的主因,并针对这些原因提出了一种新颖的多深层神经网络联合建模方案。通过将数据进行聚类,我们可以分开独立的并行训练多个深层神经网络来对各个聚类数据分别进行建模。这种建模方法在交叉熵准则下,相对普通单个深层神经网络建模方法效率的提升是非常明显,在实际的研究应用中具有重要意义。最后,针对我们提出的多深层神经网络联合建模方案,我们进行了进一步的完善。为了验证这一建模框架的切实可行性,同时解决其性能损失问题,我们在序列级区分性准则下进行了研究。序列级区分性准则可以看作是多DNN的一种联合优化策略,我们根据多DNN结构特点,推导出了此框架下的基于最大互信息量的区分性训练方法,并实现了部分并行化。实验表明,在经过联合优化后,多DNN方法与单个DNN方法达到几乎一样的性能,同时在交叉熵准则与最大互信息量准则下分别有超过7倍和1.5倍的训练效率提升,表明了多DNN声学建模方法是一种实际有效的建模方案。
徐慧[7](2013)在《基于隐马尔科夫模型的拉萨话语音拨号技术研究》文中研究指明语音识别技术就是让计算机或者手机通过语音信号的识别和理解,把它转变为相应的文本或命令的技术。语音识别技术在手机中的开发和应用将进一步扩展这种技术向新的方向发展。而手机语音拨号正是这种技术的一大应用。目前国内基于汉语的语音拨号技术已经达到很高的水平,而关于少数民族语言藏语拉萨话语音拨号系统的研究却少之又少。藏语属汉藏语系藏缅语族藏语支。我国境内的藏语分为卫藏、康和安多三大方言,方言间的差别主要表现在语音上,其中的拉萨话属于卫藏方言。藏语属于拼音型语言,任何掌握拼读规则的人,都可以把文字拼读出来。拉萨话在韵律特征、协同发音等方面有自己独特的规律。本文结合拉萨话自身的特点,建立了男女各30位的60个发音人的拉萨话语语音拨号语料库,研究了拉萨话语连续语音识别基元的选取。通过对拉萨话的声学分析,本文选取三音子作为基本的识别单元,利用国际上成熟的语音识别工具——隐马尔科夫模型工具(HTK)建立了拉萨话的三音子声学模型,并使用MFCC特征向量、决策树、绑定三音子、增加高斯混合度等方法提高模型的识别率。最后,在DOS环境下,利用HTK工具,对测试语句进行了识别实验。最终男发音人语音拨号识别中句子的识别率达到了87.05%,词的识别率达到了87.14%,女发音人语音拨号识别中句子的识别率达到了86.45%,词的识别率达到了87.31%。
曲晶晶[8](2010)在《移动机器人语音识别控制仿真系统的设计与实现》文中认为本文介绍了仿真系统国内外发展状况,以及当前流行的仿真技术等方面作了较为系统的综述,在此基础上阐明了本课题的研究背景和意义。在语音识别的基础上,介绍了神经网络及人工神经网络的特点。主要研究了人工神经网络是如何应用于语音识别当中。针对非特定人孤立词识别任务基于三种不同结构的神经网络(BP网络、径向基函数网络和预测网络),研究构造了相应的语音识别模型与算法,并完成了软件的设计与开发。通过仿真计算,比较了三种神经网络算法的识别性能及应用特点分析讨论了不同特征参数,并与传统的动态时间归整(DTW)方法进行了比较。研究结果表明,神经网络识别方法有着较高的识别率和独特的应用优势。最后通过对实际语音识别系统——室内移动机器人的测试和研究,采用的是单输出型方式,结合SPCE061A对语音的软硬件支持,通过语音教学的方式,由传感器组和语音编码后的向量构成样本,以语音触发的方式让机器人在未知的环境中采样,采集完成后,机器人通过采集的样本组来训练自己,为进一步开发实用性语音识别系统的工作做基础和探索性工作。
刘聪[9](2010)在《声学模型区分性训练及其在LVCSR系统的应用》文中研究表明声学模型区分性训练是近年来语音识别领域的研究热点之一,它已经成为当今主流的语音识别系统,尤其是大词汇量连续语音识别LVCSR系统中最重要的模型训练手段之一。本文主要针对声学模型区分性训练及其在LVCSR系统中的应用问题进行较深入的研究和讨论。另外,本文对语音识别系统的另一个重要模块——置信度判决也有所涉猎。首先,本文提出了一种新颖的、称为“受限线性搜索”CLS的优化算法,该算法用于语音识别区分性训练中的CDHMM模型参数更新。CLS方法可以用于区分性训练统一准则框架下各种区分性准则的模型更新,包括MMI、MCE、MWE/MPE等。在该方法中,HMM的区分性训练问题首先被定义为一个受限优化问题,并且直接使用模型间的KLD度量来定量的描述所定义的模型间限制。接着,基于简单的线性搜索思想,我们发现在将该模型限制转化为二次函数形式后,可以很容易获得模型更新参数的闭式解。CLS方法可以用于优化CDHMM模型中的各种参数,包括高斯均值、协方差矩阵、权重等。接着,本文对我们此前提出的称为“信任区域”(Trust Region)的区分性训练模型参数更新方法进行了进一步理论分析和扩展。Trust Region方法通过将MMI区分性训练问题转变为一个优化理论中可参考的标准问题,从而准确高效的求取待优化函数的全局最优点。在引入上述模型间限制的前提下,Trust Region方法可以对区分性训练中的辅助函数进行完美的优化。然而,在区分性训练中对辅助函数的最优化无法保证对原始目标函数的优化。因此我们通过对Trust Region问题的深入理论分析,提出构造一种称为“有界信任区域”(Bounded Trust Region)的新辅助函数。该辅助函数仍然是目标函数的有效估计,更重要的是,在满足模型间限制的前提下,该辅助函数是原始目标函数的下界。这个优良品质可以确保对该辅助函数的最优化也能够带来对目标函数的优化。另外,这里构造的新辅助函数仍然可以直接使用标准的Trust Region方法来解决,从而可以快速求取全局最优点。实验表明基于Bounded Trust Region的方法超越了传统的EBW算法和原始Trust Region方法。第三,本文还针对实际的LVCSR系统中存在的若干问题进行了探讨,包括处理海量训练语料时的计算能力问题和由此导致的效率瓶颈,以及区分性训练中普遍存在的推广性问题等。在此基础上,我们分别结合基于WFST解码器生成的具有优良品质的词图,和传统的基于HTK计算区分性训练相关统计量的工具,搭建了一套用于区分性训练的新流程。该流程相对于传统完全基于HTK流程的区分性训练,不仅在训练效率上得到了极大的优化,在识别性能上也有一定的提升。最后,本文在语音识别系统的重要模块之一——置信度判决CM方向进行了相关工作。我们首先基于语音识别系统的输出定义了所谓的“目标区域”和“非目标区域”,并分别针对不同的区域选择合适的置信度判决方法。我们尝试发掘“非目标区域”中的额外信息,以期对传统只基于“目标区域”进行CM计算的方法起到补充作用。实验结果表明,基于“非目标区域”的置信度对基于“目标区域”的置信度有很好的补充作用。接下来,我们又进一步利用贝叶斯信息准则对“非目标区域”中所吸收的语音边界进行定位,基于定位后的置信度取得了更多的性能提升。
孙延冰[10](2009)在《嵌入式语音识别系统的研究与实现》文中研究说明语音识别技术是近几年来语音处理领域出现的一个关键技术。语音识别的目的就是研制出一种具有人类听觉功能的机器,以便能够直接听懂人的讲话,并做出相应的反应。语音识别正在办公或商业系统的数据库语音查询、工业生产部门的语声控制、电话与电信系统的自动拨号以及医疗和卫生等领域发挥重要的作用,并且极有可能成为下一代操作系统和应用程序的用户界面。语音识别研究取得了巨大的成就,形成了隐马尔可夫模型、矢量量化、动态时间规正等有效技术,出现了一些比较成功的语音识别系统。这种具备了语音识别功能的系统在互连网、通信、军事、国防等方面有着十分重要的价值。随着集成电路尤其是超大规模集成电路的快速发展,嵌入式的功能越来越强大,语音识别技术在嵌入式系统上的应用成为了可能。语音识别是一门内涵丰富、应用广泛的技术,它的实用性和趣味性使得人们对它有着迫切的应用需求。本文基于语音信号产生的数学模型,从时域、频域、出发,对语音信号进行分析,论述了语音识别的基本理论。语音识别的方法有统计模式识别法(包括模板匹配法、随机模型法和概率语法分析法)、句法模式识别法、模糊数学识别法和人工神经网络识别法等。模板匹配法发展较成熟,目前已经达到了使用阶段。美尔倒谱分析和线性预测分析是应用较广的特征参数提取技术;模式匹配及模型训练技术有隐马尔可夫模型(HMM)、矢量量化(VQ)、动态时间规整(DTW)和人工神经网络(ANN)。在此基础上,本文讨论了语音识别系统的主要技术及其在本课题中的应用,并重点讨论了本课题中语音信号端点检测、特征参数的提取、识别算法的优劣以及在不同系统中的应用。根据实际情况搭建了一个基于DTW算法的孤立词,小词汇量,特定人的语音识别系统,使系统能够识别0—9十个数字。该系统包括以下几个部分,前端处理、端点检测、模板训练、语音识别等。
二、基于HMM状态结构调整的非特定人语音识别(英文)(论文开题报告)
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
本文主要提出一款精简64位RISC处理器存储管理单元结构并详细分析其设计过程。在该MMU结构中,TLB采用叁个分离的TLB,TLB采用基于内容查找的相联存储器并行查找,支持粗粒度为64KB和细粒度为4KB两种页面大小,采用多级分层页表结构映射地址空间,并详细论述了四级页表转换过程,TLB结构组织等。该MMU结构将作为该处理器存储系统实现的一个重要组成部分。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
三、基于HMM状态结构调整的非特定人语音识别(英文)(论文提纲范文)
(1)基于低资源语音识别系统的硬件实现(论文提纲范文)
摘要 |
abstract |
引言 |
0.1 课题研究的背景与意义 |
0.2 国内外发展历史及其研究现状 |
0.3 语音识别系统原理与框架 |
0.4 低资源语音识别系统 |
0.5 本文研究内容与章节安排 |
第1章 语音识别特征提取流程及其相关模型 |
1.1 语音信号的特点 |
1.2 语音信号的特征提取流程 |
1.3 语音信号的预处理 |
1.3.1 预加重 |
1.3.2 加窗分帧 |
1.3.3 语音信号的端点检测 |
1.4 梅尔频率倒谱系数的提取 |
1.5 声学模型与语言模型 |
1.5.1 声学模型的基本概念 |
1.5.2 语言模型的基本概念 |
1.6 解码器 |
1.7 本章小结 |
第2章 声学模型的训练与改进 |
2.1 GMM-HMM模型训练过程 |
2.2 SGMM模型 |
2.3 GMM和SGMM模型的比较 |
2.4 本章小结 |
第3章 基于深度学习的语音识别模型建模 |
3.1 深度学习 |
3.1.1 传统声学模型的缺陷 |
3.1.2 人工神经网络(ANN) |
3.1.3 语音识别中神经网络的结构 |
3.2 神经网络的训练过程 |
3.3 DNN-HMM模型建模 |
3.4 瓶颈特征(BN特征)提取 |
3.5 BN-SGMM-HMM声学模型 |
3.6 本章小结 |
第4章 语音识别系统的搭建与硬件实现 |
4.1 kaldi语音识别系统 |
4.2 实验环境配置 |
4.3 数据准备与特征提取 |
4.4 GMM-HMM基线模型训练 |
4.5 DNN-HMM网络训练 |
4.6 瓶颈层(BN层)神经元数目对网络的影响 |
4.7 声学模型之间的比较 |
4.8 树莓派简介 |
4.9 本章小结 |
第5章 总结与展望 |
5.1 结论 |
5.2 进一步工作的方向 |
致谢 |
参考文献 |
攻读学位期间发表的学术论文及参加科研情况 |
(2)深度学习语音识别系统中的若干建模问题研究(论文提纲范文)
摘要 |
ABSTRACT |
第1章 绪论 |
1.1 语音识别 |
1.1.1语音识别系统划分 |
1.1.2 语音识别历史回顾 |
1.1.3 语音识别系统结构 |
1.2 深度学习 |
1.2.1 深度学习的历史回顾 |
1.2.2 常见的神经网络结构 |
1.3 基于深度学习的语音识别 |
1.3.1 基于深度学习的混合架构语音识别 |
1.3.2 基于深度学习的端到端架构语音识别 |
1.3.3 深度学习语音识别系统中的建模问题 |
1.4 本文的主要研究内容及组织结构 |
1.4.1 本文的主要内容 |
1.4.2 本文的组织结构 |
1.5 语音识别数据库简介 |
第2章 时序注意机制的LSTM声学模型与时延问题研究 |
2.1 前言 |
2.2 前馈序列记忆神经网络 |
2.3 基于未来时序注意机制的单向LSTM模型 |
2.4 实验结果与分析 |
2.5 本章小结 |
第3章 稠密残差网络声学模型与噪声鲁棒性问题研究 |
3.1 前言 |
3.2 残差网络与稠密网络 |
3.2.1 残差网络简介 |
3.2.2 稠密网络简介 |
3.2.3 两种网络的结构对比 |
3.3 基于稠密残差网络的声学模型 |
3.3.1 稠密残差层结构 |
3.3.2 基于稠密残差网络的声学模型搭建 |
3.3.3 讨论:模型配置 |
3.4 实验结果与分析 |
3.4.1 CHiME4:多通道语音识别任务 |
3.4.2 模型的噪声鲁棒性分析 |
3.5 本章小结 |
第4章 扩展后验注意力模型与注意力向量优化问题 |
4.1 前言 |
4.2 编码-解码模型相关内容介绍 |
4.2.1 曝光偏差和计划采样方法 |
4.2.2 后验注意力模型介绍 |
4.3 基于扩展后验注意力机制的端到端语音识别 |
4.3.1 扩展后验注意力模型结构 |
4.3.2 曝光偏差问题与解决方法 |
4.4 实验结果与分析 |
4.4.1 实验验证:后验优化注意力分布 |
4.4.2 实验验证:曝光误差 |
4.4.3 实验总结:EPAM模型最终性能表现 |
4.5 本章小结 |
第5章 多层级标识序列对齐方法与多层级标签建模 |
5.1 前言 |
5.2 语音识别任务中的多层级标识 |
5.2.1 多种文本序列表示形式 |
5.2.2 常见的子词分割算法 |
5.2.3 现有端到端语音识别建模研究工作 |
5.3 基于序列间对齐映射的多层级端到端语音识别建模 |
5.3.1 多层级标识间的对齐映射关系 |
5.3.2 对齐映射关系与端到端模型结构 |
5.3.3 序列间对齐映射关系与端到端解码过程 |
5.4 实验结果与分析 |
5.4.1 模型的性能表现 |
5.4.2 模型的可视化与分析 |
5.4.3 与已有工作的比较 |
5.5 本章小结 |
第6章 总结 |
6.1 本文的主要贡献与创新点 |
6.2 后续的研究工作 |
参考文献 |
致谢 |
在读期间发表的学术论文与取得的研究成果 |
(3)基于LAS模型的中英文混杂语音识别研究(论文提纲范文)
摘要 |
ABSTRACT |
第1章 绪论 |
1.1 研究背景及意义 |
1.2 国内外研究现状 |
1.3 论文结构 |
第2章 基于HMM的传统语音识别 |
2.1 语音识别使用的训练数据 |
2.2 梅尔频率倒谱系数特征 |
2.3 语音建模单元 |
2.4 基于隐马尔可夫模型的语音识别框架 |
2.5 语音识别性能评估 |
2.5.1 困惑度 |
2.5.2 词错误率 |
2.6 本章小结 |
第3章 基于HMM-TDNN-F中英混杂语音识别研究 |
3.1 中英混杂语言特点 |
3.2 半正交低秩矩阵分解时延神经网络 |
3.3 数据准备 |
3.3.1 中英混杂数据集 |
3.3.2 发音字典和语言模型 |
3.3.3 声学模型 |
3.3.4 基于KALDI的循环神经网络语言模型 |
3.4 实验及分析 |
3.4.1 软件平台 |
3.4.2 硬件平台 |
3.4.3 实验结果及分析 |
3.5 本章小结 |
第4章 语言模型 |
4.1 n-gram语言模型 |
4.2 神经网络语言模型 |
4.2.1 前馈神经网络语言模型 |
4.2.2 循环神经网络语言模型 |
4.3 循环神经网络字符级语言模型实验 |
4.3.1 基于ESPnet的循环神经网络语言模型 |
4.4 本章小结 |
第5章 基于注意力机制的端到端中英混杂语音识别研究 |
5.1 基于注意力机制的RNN编解码网络 |
5.1.1 编解码网络 |
5.1.2 点乘注意力机制 |
5.1.3 加性注意力机制 |
5.1.4 位置感知的注意力机制 |
5.1.5 收敛的注意力机制 |
5.1.6 基于LSTM的位置感知注意力机制 |
5.1.7 基于位置感知的收敛的注意力机制 |
5.1.8 加性的多头注意力机制 |
5.2 基于TRANSFORMER的网络 |
5.2.1 预输入网络 |
5.2.2 基于transformer的多头注意力机制 |
5.2.2.1 单头自注意力机制的向量层面计算过程 |
5.2.2.2 单头自注意力机制的矩阵层面计算过程 |
5.2.2.3 多头自注意力机制的矩阵层面计算过程 |
5.3 基于注意力机制的中英混杂语音识别实验 |
5.3.1 实验数据 |
5.3.2 网络结构 |
5.3.3 网络训练和解码 |
5.4 本章小结 |
第6章 基于CTC的端到端中英混杂语音识别研究 |
6.1 连接时序分布网络的思想 |
6.2 连接时序分布网络的目标函数 |
6.3 连接时序分布网络的对齐路径 |
6.4 连接时序分布网络的前后向算法 |
6.4.1 连接时序分布网络标签跳转规则 |
6.4.2 连接时序分布网络反向传播过程 |
6.5 连接时序分布网络的中英混杂语音识别实验 |
6.5.1 实验数据 |
6.5.2 连接时序分布网络结构 |
6.5.3 RNNLM辅助连接时序分布网络解码阶段 |
6.5.4 实验及分析 |
6.6 本章小结 |
第7章 CTC辅助基于注意力机制的端到端中英混杂语音识别研究 |
7.1 混合结构模型的训练和解码的目标函数 |
7.2 连接时序分布的前缀搜索算法 |
7.3 混合结构的一次解码算法 |
7.4 基于循环网络的端到端混合结构的中英混杂语音识别实验 |
7.4.1 实验数据 |
7.4.2 编码器结构调整实验 |
7.4.3 计划抽样参数影响实验 |
7.4.4 不同注意力机制对比实验 |
7.5 基于TRANSFORMER的端到端混合结构中英混杂语音识别实验 |
7.6 实验结果汇总及分析 |
7.6.1 实验结果汇总 |
7.6.2 实验结果分析 |
第8章 总结和展望 |
8.1 总结 |
8.2 展望 |
参考文献 |
附录 |
致谢 |
(4)神经网络时序分类方法在语音识别中的应用研究(论文提纲范文)
摘要 |
ABSTRACT |
创新点摘要 |
第一章 绪论 |
1.1 研究背景与意义 |
1.2 国内外研究现状 |
1.2.1 国外研究现状 |
1.2.2 国内研究现状 |
1.3 相关技术研究 |
1.3.1 语音识别基础原理 |
1.3.2 神经网络基本结构 |
1.3.3 神经网络的传播过程 |
1.4 本文研究主题及章节安排 |
1.4.1 本文研究主题 |
1.4.2 本文章节安排 |
第二章 基于中文语言模型的非完全端到端语音识别框架 |
2.1 传统语音识别框架结构分析 |
2.2 神经网络语音识别框架结构分析 |
2.2.1 Tandem框架结构分析 |
2.2.2 Hybrid框架结构分析 |
2.3 非完全端到端框架结构设计 |
2.3.1 端到端语音识别框架分析 |
2.3.2 非完全端到端框架结构设计 |
2.4 本章小结 |
第三章 基于自适应技术的GMM-HMM算法模型 |
3.1 隐马尔科夫模型 |
3.1.1 马尔科夫模型 |
3.1.2 隐马尔科夫模型 |
3.1.3 隐马尔科夫三个基本问题 |
3.2 混合高斯模型参数估计 |
3.3 基于自适应技术的GMM-HMM模型 |
3.3.1 最大似然线性回归自适应算法 |
3.3.2 自适应技术优势 |
3.4 本章小结 |
第四章 基于Bi-PLSTM的链接时序分类算法模型 |
4.1 循环神经网络 |
4.2 双向映射长短期记忆时序网络 |
4.2.1 长短期记忆时序网络 |
4.2.2 映射长短期记忆时序网络 |
4.2.3 双向映射长短期记忆时序网络 |
4.3 链接时序分类算法 |
4.4 基于Bi-PLSTM的 CTC训练过程 |
4.5 基于Bi-PLSTM的 CTC解码原理 |
4.5.1 不结合语言模型解码 |
4.5.2 结合语言模型解码 |
4.6 本章小结 |
第五章 实验设计及结果分析 |
5.1 实验数据集介绍 |
5.2 基于自适应技术的GMM-HMM算法模型实验结果及分析 |
5.3 基于Bi-PLSTM的链接时序分类算法模型实验结果及分析 |
5.4 本章小结 |
结论 |
参考文献 |
发表文章目录 |
致谢 |
(5)面向蒙古语的语音识别声学建模研究(论文提纲范文)
摘要 |
ABSTRACT |
第一章 绪论 |
1.1 语音识别概述 |
1.1.1 语音识别及其研究历程与现状 |
1.1.2 语音识别问题及统计语音识别系统 |
1.2 隐马尔可夫模型及其声学建模 |
1.2.1 隐马尔可夫模型 |
1.2.2 隐马尔可夫模型声学建模 |
1.3 蒙古语语音识别的研究背景 |
1.4 本文研究内容及意义 |
1.5 本文组织结构 |
第二章 蒙古语声学模型拓扑结构优化 |
2.1 引言 |
2.2 蒙古语构词特点 |
2.3 蒙古语声学模型拓扑结构优化算法 |
2.3.1 GA-AMTO算法 |
2.3.2 PSO-AMTO算法 |
2.4 系统实现关键问题的考虑 |
2.5 高斯核非均匀分配系统的训练 |
2.6 蒙古语声学模型拓扑结构优化实验 |
2.6.1 蒙古语声学模型拓扑结构优化实验(Ⅰ) |
2.6.2 蒙古语声学模型拓扑结构优化实验(Ⅱ) |
2.7 本章小结 |
第三章 蒙古语声学模型状态聚类:问题集设计 |
3.1 引言 |
3.2 基于决策树的状态聚类与绑定 |
3.3 蒙古语问题集设计 |
3.3.1 原则 |
3.3.2 音子集的选择 |
3.3.3 音素表的完善 |
3.3.4 复合元音的归类 |
3.3.5 松与紧概念与元音和谐律的应用 |
3.3.6 方法 |
3.3.7 蒙古语问题集 |
3.4 蒙古语问题集分析比较 |
3.5 实验配置、结果与分析 |
3.5.1 问题集支持的决策树方法与数据驱动方法的对比实验 |
3.5.2 蒙古语问题集对比实验 |
3.6 本章小结 |
第四章 蒙古语声学模型的区分性训练 |
4.1 引言 |
4.2 区分性训练准则与优化算法 |
4.3 蒙古语声学模型的区分性训练 |
4.4 实验配置、结果与分析 |
4.4.1 蒙古语语音识别系统的声学模型区分性训练实验 |
4.4.2 蒙古语音子识别实验及识别结果的基于混淆矩阵的比较 |
4.5 本章小结 |
第五章 蒙古语声学模型的自适应训练 |
5.1 引言 |
5.2 说话人自适应训练参数变换算法 |
5.3 蒙古语声学模型的说话人自适应 |
5.4 蒙古语声学模型的性别自适应 |
5.5 蒙古语声学模型的方言自适应 |
5.6 实验配置、结果与分析 |
5.6.1 蒙古语声学模型说话人自适应实验 |
5.6.2 蒙古语声学模型性别自适应实验 |
5.6.3 蒙古语声学模型方言自适应实验 |
5.7 本章小结 |
第六章 总结与展望 |
6.1 论文工作总结 |
6.2 未来研究展望 |
参考文献 |
致谢 |
作者攻读博士学位期间的科研情况 |
(6)基于深层神经网络的语音识别声学建模研究(论文提纲范文)
摘要 |
ABSTRACT |
目录 |
插图 |
表格 |
主要符号对照表 |
第一章 绪论 |
1.1 语音识别 |
1.1.1 语音识别简介 |
1.1.2 语音识别发展史 |
1.2 语音识别问题表示 |
1.2.1 贝叶斯决策理论 |
1.2.2 语音识别问题 |
1.3 语音识别系统框架 |
1.3.1 声学特征提取 |
1.3.2 声学模型 |
1.3.3 语言模型 |
1.3.4 解码器 |
1.4 本文的主要内容及组织结构 |
1.4.1 主要内容 |
1.4.2 组织结构 |
第二章 人工神经网络声学建模方法 |
2.1 引言 |
2.2 感知器 |
2.3 多层感知器网络 |
2.3.1 BP 算法 |
2.3.2 MLP训练中的问题 |
2.4 基于MLP的声学建模 |
2.4.1 Hybrid 方法 |
2.4.2 Tandem 方法 |
2.5 深层神经网络 |
2.6 本章小结 |
第三章 特征域和模型域的神经网络建模 |
3.1 引言 |
3.2 改进的Tandem方法 |
3.2.1 竞争信息的定义 |
3.2.2 竞争信息的挑选 |
3.2.3 基于竞争信息的Tandem改进 |
3.3 DNN声学建模 |
3.3.1 受限玻尔兹曼机 |
3.3.2 堆叠 RBM 构成 DNN |
3.3.3 DNN-HMM 模型 |
3.4 多流特征融合方法 |
3.5 实验和结果 |
3.5.1 实验设置 |
3.5.2 实验结果和分析 |
3.6 本章小结 |
第四章 基于状态聚类的多深层神经网络声学建模 |
4.1 引言 |
4.2 基于聚类的多DNN |
4.2.1 多DNN建模结构 |
4.2.2 状态级无监督数据聚类 |
4.2.3 多DNN的交叉熵训练 |
4.3 实验部分 |
4.3.1 普通话转写任务 |
4.3.2 Switchboard 任务 |
4.4 本章小结 |
第五章 多深层神经网络声学模型区分性训练 |
5.1 引言 |
5.2 多DNN建模回顾 |
5.3 多DNN的序列级区分性训练 |
5.3.1 普通DNN的序列级区分性训练 |
5.3.2 多DNN序列级区分性训练 |
5.3.3 多DNN序列级区分性训练的多GPU实现 |
5.4 实验部分 |
5.4.1 基线系统 |
5.4.2 多DNN的帧级交叉熵训练 |
5.4.3 多DNN系统的MMI区分性训练 |
5.5 本章小结 |
第六章 总结 |
6.1 本文的主要贡献与创新点 |
6.2 后续的研究工作 |
参考文献 |
个人简历及在读期间发表的学术论文 |
致谢 |
(7)基于隐马尔科夫模型的拉萨话语音拨号技术研究(论文提纲范文)
摘要 |
Abstract |
第一章 绪论 |
1.1 语音识别的发展与现状 |
1.2 少数民族语音语音识别现状 |
1.3 本文选题的依据与研究意义 |
1.4 本文的工作和内容的安排 |
第二章 藏语简介 |
2.1 藏语概述 |
2.2 拉萨话语音系统 |
第三章 隐马尔科夫模型(HMM)的一般定律 |
3.1 隐马尔科夫模型(HMM)的思想 |
3.2 使用HMM进行识别 |
3.3 输出概率 |
3.4 Beam-width算法和前项-后项算法 |
3.5 维特比算法和识别 |
3.6 连续语音识别 |
第四章 拉萨话语音拨号系统的实现 |
4.1 数据准备 |
4.2 创建单音子HMMs |
4.3 创建绑定状态的三音子 |
4.4 识别器的重估 |
第五章 总结与展望 |
5.1 总结 |
5.2 工作展望 |
参考文献 |
在校期间的研究成果 |
致谢 |
(8)移动机器人语音识别控制仿真系统的设计与实现(论文提纲范文)
摘要 |
ABSTRACT |
第一章 绪论 |
1.1 研究背景和意义 |
1.1.1 课题背景 |
1.2 国内外研究现状 |
1.2.1 语音识别的研究现状 |
1.2.2 仿真系统的研究现状 |
1.3 论文主要工作和章节安排 |
第二章 基础知识 |
2.1 语音识别技术 |
2.1.1 语音信号处理 |
2.1.2 语音识别概述 |
2.1.3 语音识别的分类 |
2.1.4 语音识别原理 |
2.2 神经网络的基本概念 |
2.2.1 神经网络的基本组成 |
2.2.2 神经网络的基本模型结构 |
2.3 小结 |
第三章 关键技术研究 |
3.1 神经网络建模的功能实现 |
3.1.1 语音模型的建立 |
3.1.2 模式匹配的方法 |
3.2 人工神经网络在语音识别中的具体应用模式 |
3.3 本文所采取的神经网络建模方式 |
3.4 小结 |
第四章 仿真实验系统详细设计与实现 |
4.1 系统开发环境及工具的介绍 |
4.2 仿真实验原理 |
4.3 捕捉声源 |
4.4 语音信号的特征提取 |
4.5 移动机器人——移动小车语音控制实验 |
4.5.1 电源模块 |
4.5.2 电机控制模块 |
4.5.3 小车的运行状态 |
4.6 小结 |
第五章 测试与实验结果 |
5.1 识别仿真实验 |
5.2 DTW 的识别仿真 |
5.3 实验结果附表 |
5.4 实验结论分析 |
第六章 结论与展望 |
6.1 本文的主要工作 |
6.2 系统展望 |
致谢 |
参考文献 |
(9)声学模型区分性训练及其在LVCSR系统的应用(论文提纲范文)
摘要 |
Abstract |
第1章 绪论 |
1.1 语音识别简史 |
1.2 语音识别问题 |
1.3 语音识别系统 |
1.3.1 声学特征提取 |
1.3.2 声学模型 |
1.3.3 语言模型 |
1.3.4 解码器 |
1.4 本文的主要内容及组织结构 |
第2章 基于HMM的声学模型建模 |
2.1 引言 |
2.2 HMM的数学定义 |
2.3 HMM的经典问题 |
2.3.1 评估问题 |
2.3.2 解码问题 |
2.3.3 训练问题 |
2.4 基于HMM的语音识别声学模型建模 |
2.5 本章小结 |
第3章 区分性训练统一准则框架及传统参数优化方法 |
3.1 引言 |
3.2 贝叶斯决策理论 |
3.3 传统区分性训练准则 |
3.3.1 最大互信息量MMI准则 |
3.3.2 最小分类错误MCE准则 |
3.3.3 最小词/音素错误MWE/MPE准则 |
3.3.4 区分性训练统一准则框架 |
3.4 传统区分性训练优化算法 |
3.4.1 基于GPD的模型参数优化算法 |
3.4.2 QuickProp算法 |
3.4.3 Quasi-Newton算法 |
3.4.4 基于EBW的模型参数优化算法 |
3.5 区分性训练的其它问题 |
3.6 本章小结 |
第4章 基于CLS的区分性训练模型参数优化算法 |
4.1 引言 |
4.2 区分性训练统一准则框架下的受限优化问题 |
4.3 基于KLD度量的模型间限制 |
4.3.1 模型级别限制到高斯级别限制的分解 |
4.3.2 针对高斯协方差矩阵和权重KLD度量的二次化估计 |
4.4 基于CLS的模型参数更新 |
4.4.1 基于局部一阶统计量的搜索方向求取 |
4.4.2 一般性CLS更新方法 |
4.5 实验及结果 |
4.5.1 实验配置 |
4.5.2 实验结果 |
4.6 本章小结 |
第5章 基于Bounded Trust Region的模型参数优化算法 |
5.1 引言 |
5.2 Trust Region优化问题及其全局最优解 |
5.3 MMI转化为Trust Region问题 |
5.3.1 基于KLD的模型间限制转化为TR问题中的限制 |
5.3.2 MMI辅助函数转化为TR问题的待优化函数 |
5.4 MMI转化为Bounded Trust Region问题 |
5.4.1 新辅助函数的构造 |
5.4.2 惩罚矩阵P的求取 |
5.5 实验及结果 |
5.5.1 实验配置 |
5.5.2 实验结果 |
5.6 本章小结 |
第6章 声学模型区分性训练在LVCSR系统中的应用 |
6.1 引言 |
6.2 基于HTK工具的区分性训练流程 |
6.3 基于WFST的词图和基于HTK的统计量计算相结合 |
6.4 实验及结果 |
6.4.1 WSJO任务 |
6.4.2 Switchboard任务 |
6.5 本章小结 |
第7章 基于BIC发掘非目标区域信息的置信度判决 |
7.1 引言 |
7.2 非目标区域中额外CM信息的发掘 |
7.3 不同区域的置信度方法讨论 |
7.3.1 基于WPP的目标区域CM |
7.3.2 基于LRT的非目标区域CM |
7.4 基于BIC的非目标区域分析 |
7.5 实验及结果 |
7.5.1 实验配置 |
7.5.2 实验结果 |
7.6 本章小结 |
第8章 总结 |
8.1 本文的主要工作 |
8.2 进一步的研究方向 |
插图索引 |
表格索引 |
参考文献 |
致谢 |
附录A Bounded Trust Region方法中区分性训练辅助函数推导 |
个人简历及在读期间发表的学术论文 |
(10)嵌入式语音识别系统的研究与实现(论文提纲范文)
目录 |
摘要 |
Abstract |
第一章 前言 |
1.1 课题背景 |
1.2 语音识别技术的发展历史 |
1.3 语音识别研究的现况 |
1.4 主要研究内容和论文结构 |
第二章 语音信号处理 |
2.1 语音学知识 |
2.1.1 语音信号的发音器官 |
2.1.2 音素、音节及汉语的音调 |
2.2 语音信号产生的数学模型 |
2.3 语音信号分析 |
2.3.1 语音信号的时域分析 |
2.3.2 语音信号的频域分析 |
2.3.3 语音信号的倒谱分析 |
2.4 语音信号的预处理及特征提取 |
2.4.1 语音信号的预处理 |
2.4.2 语音信号的特征提取 |
2.5 语音识别的训练方法 |
2.5.1 偶然性训练法 |
2.5.2 鲁棒性训练法 |
2.5.3 聚类训练法 |
第三章 语音识别方法 |
3.1 语音识别系统结构 |
3.2 隐马尔可夫模型 |
3.2.1 隐马尔可夫模型基本原理 |
3.2.2 HMM的基本元素 |
3.2.3 隐马尔可夫模型的基本算法 |
3.2.4 隐马尔可夫模型的一些实际问题 |
3.2.5 HMM在应用中存在的问题 |
3.3 人工神经网络(ANN) |
3.3.1 神经网络的基本概念 |
3.3.2 BP网络模型 |
3.3.3 神经网络在语音识别中的应用 |
3.4 动态时间规整 |
3.4.1 DTW算法的基本原理 |
3.4.2 DTW算法与孤立词的识别 |
第四章 语音识别系统的仿真和改进 |
4.1 系统组成 |
4.2 语音信号预处理 |
4.2.1 语音信号预加重 |
4.2.2 加窗分帧 |
4.2.3 端点检测 |
4.3 特征参数提取 |
4.3.1 线性预测倒谱系数 |
4.3.2 美尔倒谱系数 |
4.4 语音识别算法 |
4.5 实验结果分析及算法改进研究 |
4.5.1 实验结果 |
4.5.2 DTW算法的研究和改进 |
第五章 基于ARM的语音识别系统 |
5.1 语音识别的系统要求 |
5.2 UP-NET ARM 2410-S |
5.3 嵌入式系统软件设计 |
5.4 系统软件开发流程 |
5.5 实验结果及分析 |
第六章 总结与展望 |
6.1 主要工作 |
6.2 前景展望 |
致谢 |
主要参考文献 |
附录 攻读硕士学位期间发表的论文 |
四、基于HMM状态结构调整的非特定人语音识别(英文)(论文参考文献)
- [1]基于低资源语音识别系统的硬件实现[D]. 雷杰. 辽宁大学, 2021(12)
- [2]深度学习语音识别系统中的若干建模问题研究[D]. 唐健. 中国科学技术大学, 2020(01)
- [3]基于LAS模型的中英文混杂语音识别研究[D]. 马夺. 西北民族大学, 2020(08)
- [4]神经网络时序分类方法在语音识别中的应用研究[D]. 王雨萌. 东北石油大学, 2019(01)
- [5]面向蒙古语的语音识别声学建模研究[D]. 包希日莫. 内蒙古大学, 2016(08)
- [6]基于深层神经网络的语音识别声学建模研究[D]. 周盼. 中国科学技术大学, 2014(06)
- [7]基于隐马尔科夫模型的拉萨话语音拨号技术研究[D]. 徐慧. 西北民族大学, 2013(05)
- [8]移动机器人语音识别控制仿真系统的设计与实现[D]. 曲晶晶. 电子科技大学, 2010(02)
- [9]声学模型区分性训练及其在LVCSR系统的应用[D]. 刘聪. 中国科学技术大学, 2010(09)
- [10]嵌入式语音识别系统的研究与实现[D]. 孙延冰. 贵州大学, 2009(S1)
标签:语音识别论文; 自然语言处理论文; 神经网络模型论文; kaldi语音识别论文; 网络模型论文;