加入VIP
解析深度学习语音识别实践在线阅读-解析深度学习语音识别实践PDF电子书下载完整高清版

解析深度学习语音识别实践在线阅读-解析深度学习语音识别实践PDF电子书下载完整高清版

编辑点评:

解析深度学习:语音识别实践适合有一定机器学习或语音识别基础的学生、研究者或从业者阅读,所有 的算法及技术细节都提供了详尽的参考文献,给出了深度学习在语音识别中应用的全景。

解析深度学习语音识别实践PDF电子书下载

编辑推荐

AlphaGo与李世石的围棋大战激发了人们对人工智能是非的诸多争论。人工智能背后的工作原理深度学习跳入大众的视野。AlphaGo的大获全胜一定程度展示了深度学习在应用领域的成功,而语音识别正是深度学习取得显著成功的应用领域之一。

本书是首次以深度学习为主线介绍语音识别应用的书籍,对读者了解语音识别技术及其发展历程有重要的参考价值。

本书作者俞栋、邓力均是该领域的著名专家,他们是深度学习在应用领域取得突破性进展的推动者与实践者,他们在书中分享的研究成果一定程度上代表了本领域*新的研究进展;译者俞凯、钱彦旻也是本领域的资深专家,并有众多实践成果。对于从事此领域研究的读者来说,本书无疑有重要的参考价值。

内容简介

本书是首部介绍语音识别中深度学习技术细节的专著。全书首先概要介绍了传统语音识别理论和经典的深度神经网络核心算法。接着全面而深入地介绍了深度学习在语音识别中的应用,包括“深度神经网络-隐马尔可夫混合模型”的训练和优化,特征表示学习、模型融合、自适应,以及以循环神经网络为代表的若干先进深度学习技术。本书适合有一定机器学习或语音识别基础的学生、研究者或从业者阅读,所有的算法及技术细节都提供了详尽的参考文献,给出了深度学习在语音识别中应用的全景。

作者简介

俞栋

1998 年加入微软公司,现任微软研究院首席研究员、浙江大学兼职教授和中科大客座教授。他是语音识别和深度学习方向的资深专家,出版了两本专著,发表了150 多篇论文,是近60 项专利的发明人及有广泛影响力的深度学习开源软件CNTK 的发起人和主要作者之一。他在基于深度学习的语音识别技术上的工作带来了语音识别研究方向的转变,极大地推动了语音识别领域的发展,并获得2013 年IEEE 信号处理协会*佳论文奖。俞栋博士现担任IEEE 语音语言处理专业委员会委员,曾担任IEEE/ACM音频、语音及语言处理汇刊、IEEE 信号处理杂志等期刊的编委。

邓力

世界著名人工智能、机器学习和语音语言信号处理专家,现任微软首席人工智能科学家和深度学习技术中心研究经理。他在美国威斯康星大学先后获硕士和博士学位,然后在加拿大滑铁卢大学任教获得终身正教授。其间,他还任麻省理工学院研究职位。1999 年加入微软研究院历任数职,并在2014 年初创办深度学习技术中心,主持微软公司和研究院的人工智能和深度学习领域的技术创新。 邓立博士的研究方向包括自动语音与说话者识别、口语识别与理解、语音–语音翻译、机器翻译、语言模式、统计方法与机器学习、听觉和其他生物信息处理、深层结构学习、类脑机器智能、图像语言多模态深度学习,商业大数据深度分析等。他在上述领域做出了重大贡献,是ASA(美国声学学会)会士、IEEE(美国电气和电子工程师协会)会士和理事、ISCA(国际语音通信协会)会士,并凭借在深度学习与自动语音识别方向做出的杰出贡献荣获2015年度IEEE 信号处理技术成就奖。同时,他也曾在顶级杂志和会议上发表过与上述领域相关的300 余篇学术论文,出版过5 部著作,发明及合作发明了超过70 多项专利。邓立博士还担任过IEEE 信号处理杂志和《音频、语音与语言处理学报》(IEEE/ACMTransactions on Audio, Speech & anguage Processing)的主编。

俞凯

IEEE 高级会员,上海交通大学计算机科学与工程系特别研究员。清华大学本科、硕士,英国剑桥大学工程系博士。长期从事智能语音及语言处理、人机交互、模式识别及机器学习的研究和产业化工作。他是*组部“*人计划”(青年项目)获得者,国家自然科学基金委优秀青年科学基金获得者,上海市“东方学者”特聘教授;作为共同创始人和首席科学家创立“苏州思必驰信息科技有限公司”。现任中国声学学会语音语言、听觉及音乐分会执委会委员,中国计算机学会人机交互专委会委员,中国语音产业联盟技术工作组副组长。他的研究兴趣涉及语音识别、语音合成、口语理解、对话系统、认知型人机交互等智能语音语言处理技术的多个核心技术领域,在本领域的一流国际期刊和会议上发表论文80 余篇,申请专利10 余项,取得了一系列研究、工程和产业化成果。在InterSpeech 及IEEE Spoken Language Processing 等国际会议上获得3 篇国际会议优秀论文奖,获得国际语音通信联盟(ISCA)2013 年颁发的2008—2012 Computer Speech and Language *优论文奖。受邀担任InterSpeech 2009 语音识别领域主席、EUSIPCO 2011/EUSIPCO 2014 语音处理领域主席、InterSpeech 2014 口语对话系统领域主席等。他负责搭建或参与搭建的大规模连续语音识别系统,曾获得美国国家标准局(NIST)和美国国防部内部评测冠军;作为核心技术人员,负责设计并实现的认知型统计对话系统原型,在CMU 组织的2010 年对话系统国际挑战赛上获得了可控测试的冠军。作为项目负责人或Co-PI,他主持了欧盟第7 框架PARLANCE、国家自然科学基金委、上海市教委、经信委,以及美国通用公司、苏州思必驰信息科技有限公司的一系列科研及产业化项目。2014 年,因在智能语音技术产业化方面的贡献,获得中国人工智能学会颁发的“吴文俊人工智能科学技术奖”。

钱彦旻

上海交通大学计算机科学与工程系助理研究员,博士。分别在2007 年6 月和2013 年1 月于华中科技大学和清华大学获得工学学士和工学博士学位。2013 年4 月起,任上海交通大学计算机科与工程系理研究员。同时从2015 年1 月至2015 年12 月,在英国剑桥大学工程系机器智能实验室语音组进行访问,作为项目研究员与语音识别领域的著名科学家Phil Woodland 教授和Mark Gales 教授开展合作研究。现为IEEE、ISCA 会员,同时也是国际开源项目Kaldi 语音识别工具包开发的项目组创始成员之一。此外,担任IEEE Transactions on Audio, Speech, and Language Processing、SpeechCommunication、ICASSP、Interspeech、ASRU 等国际期刊和会议的审稿人。目前在国内外学术刊物和会议上发表学术论文50 余篇,Google Scholar 总引用数近1000 次。其中包括在语音识别领域权威国际会议ICASSP、InterSpeech 和ASRU 上发表论文30 余篇,申请国家专利共3 项,已授权1 项。2008 年获科技奥运先进集体奖,2014 年获中国人工智能学会颁发的“吴文俊人工智能科学技术奖进步奖”。曾作为负责人和主要参与者参加了包括英国EPSRC、国家自然科学基金、国家863 等多个项目。目前的研究领域包括:语音识别、说话人和语种识别、自然语言理解、深度学习建模、多媒体信号处理等。

自动语音识别:更好的沟通之桥

自动语音识别(Automatic Speech Recogition,ASR)这个研究领域已经活跃了五十多年。一直以来,这项技术都被当作是可以使人与人、人与机器更顺畅交流的桥梁。然而,语音在过去并没有真正成为一种重要的人机交流的形式,这一部分是缘于当时技术的落后,语音技术在大多数实际用户实际使用的场景下还不大可用。另一部分原因是很多情况下使用键盘、鼠标这样的形式交流比语音更有效、更准确,约束更小。

语音技术在近年渐渐开始改变我们的生活和工作方式。对某些设备来说,语音成了人与之交流的主要方式。这种趋势的出现和下面提到的几个关键领域的进步是分不开的。首先,摩尔定律持续有效。有了多核处理器、通用计算图形处理器(general purpose graphical processing unit.GCGPU).CPUGPU集群这样的技术,今天可用的计算力仅仅相比十几年前就高了几个量级。这使得训练更加强大而复杂的模型变得可能。正是这些更消耗计算能力的模型(同时也是本书的主题),显著地降低了语音识别系统的错误率。其次,借助越来越先进的互联网和云计算,我们得到了比先前多得多的数据资源。使用从真实使用场景收集的大数据进行模型训练的话,我们先前做的很多模型假设都不再需要了,这使得系统更加鲁棒。最后,移动设备、可穿戴设备、智能家居设备、车载信息娱乐系统正变得越来越流行。在这些设备和系统上,以往鼠标、键盘这样的交互方式不再延续像用在电脑上一样的便捷性了。而语音作为人类之间自然的交流方式,作为大部分人的既有能力,在这些设备和系统上成为更受欢迎的交互方式。

在近几年中,语音技术成为很多应用中的重要角色,这些应用可分为帮助促进人类之间的交流(HHC)和帮助进行人机交流(HMC)两类

序列与模型

我们可以将前文讨论的马尔可夫链看作一段能够生成可观测输出的序列。因为它的输出和每一个状态一一对应,所以又可称为可观测马尔可夫序列。其中,每一个给定的状态唯一对应一种观察值或事件,没有任何随机性。正是由于马尔可夫链缺乏这种随机性,所以用它来描述很多真实世界的信息显得过于局限。

作为马尔可夫链的一种扩展,隐马尔可夫序列在各个状态中引入了一种随机性隐马尔可夫序列在马尔可夫链的基础上,用一个观测的概率分布与每一个状态对应.而不是一个确定的观察值或事件。这样的马尔可夫序列引入了双重随机性,使得马尔可夫链不再能被直接观测,隐藏在隐马尔可夫序列下的马尔可夫链只能通过一个单独的观测概率分布函数简介表露出来

要注意的是,如果各个状态的观测概率分布没有任何重叠,那么这样的序列便不是一个隐马尔可夫序列,这是因为,尽管状态中有了随机性,但对一个特定状态而言.

由于概率外布没有重叠,某个固定范围内的观察值总能找到唯一的状态与之对应在1这种情况下,隐马尔可夫序列退化成了马尔可夫序列,在[327,328]中有更多详尽的阐述,讨论马尔可夫链和其概率函数或隐马尔可夫序列的关系

当隐马尔可夫序列被用来描述现实信息时,比如拟合这种信息的统计特征,我们称之为隐马尔可夫模型 HMM非常成功地应用于语音处理领域中,其中包括语音识别、语音合成与语音增强717 3.1,12,1417 1,2 25.2521.27.76,4,414444,,些应用中,HMM是一种强大的模型,它能够描述语音信号中不平稳但有规律可学习的空间变量 HMM之所以成为关键的语音声学模型是由于它具有顺序排列的马尔可夫状态。这使得HMM能够分段地处理短时平稳的语音特征,并以此来通近全局非平稳的语音特征序列。

解析深度学习语音识别实践PDF电子书下载截图

解析深度学习语音识别实践在线阅读-解析深度学习语音识别实践PDF电子书下载完整高清版插图(1)解析深度学习语音识别实践在线阅读-解析深度学习语音识别实践PDF电子书下载完整高清版插图(2)解析深度学习语音识别实践在线阅读-解析深度学习语音识别实践PDF电子书下载完整高清版插图(3)解析深度学习语音识别实践在线阅读-解析深度学习语音识别实践PDF电子书下载完整高清版插图(4)

评分及评论

无用户评分

来评个分数吧

  • 5 分
    0
  • 4 分
    0
  • 3 分
    0
  • 2 分
    0
  • 1 分
    0

评论