
基本信息出版社:机械工业出版社
页码:331 页
出版日期:2009年06月
ISBN:7111271904/9787111271901
条形码:9787111271901
版本:第2版
装帧:平装
开本:16
正文语种:中文
丛书名:高等院校通信与信息专业规划教材
图书品牌:华章图书
内容简介 《语音信号处理(第2版)》介绍了语音信号处理的基础、原理、方法和应用,以及该学科领域近年来取得的一些新的研究成果和技术。全书共分14章,包括绪论、语音信号处理基础知识、语音信号分析、矢量量化技术、隐马尔可夫模型、神经网络在语音信号处理中的应用、语音编码、语音合成、语音识别、说话人识别与语种辨识、语音转换与语音隐藏、语音信号中的情感信息处理、耳语音信号处理、语音增强等内容。
《语音信号处理(第2版)》可作为高等院校教材或教学参考用书,也可供从事语音信号处理等领域的工程技术人员参考。
编辑推荐 《语音信号处理(第2版)》是由机械工业出版社出版的。
目录
第1章 绪论
第2章 语音信号处理基础知识
2.1 语音和语言
2.2 汉语语音学
2.2.1 汉语语音的特点
2.2.2 汉语的拼音方法
2.2.3 汉语音节的一般结构
2.2.4 汉语声母的结构
2.2.5 汉语韵母的结构
2.2.6 声母和韵母的相互作用—音征互载
2.2.7 汉语的声调
2.3 语音生成系统和语音感知系统
2.3.1 语音发音系统
2.3.2 语音听觉系统
2.4 语音信号生成的数学模型
2.4.1 激励模型
2.4.2 声道模型
2.4.3 辐射模型
2.4.4 语音信号的数学模型
2.5 语音信号的特性分析
2.5.1 语音信号的时域波形和频谱特性
2.5.2 语音信号的语谱图
2.5.3 语音信号的统计特性
2.6 思考与复习题
第3章 语音信号分析
3.1 概述
3.2 语音信号的数字化和预处理
3.2.1 预滤波、采样、A/D转换
3.2.2 预处理
3.3 语音信号的时域分析
3.3.1 短时能量及短时平均幅度分析
3.3.2 短时过零率分析
3.3.3 短时相关分析
3.3.4 短时平均幅度差函数
3.4 语音信号的频域分析
3.4.1 利用短时傅里叶变换求语音的短时谱
3.4.2 语音的短时谱的临界带特征矢量
3.5 语音信号的倒谱分析
3.5.1 同态信号处理的基本原理
3.5.2 复倒谱和倒谱
3.5.3 语音信号倒谱分析实例
3.6 语音信号的线性预测分析
3.6.1 线性预测分析的基本原理
3.6.2 线性预测方程组的求解
3.6.3 LPC谱估计和LPC复倒谱
3.6.4 线谱对分析
3.7 语音信号的小波分析
3.7.1 傅里叶变换
3.7.2 短时傅里叶变换
3.7.3 连续小波变换
3.7.4 离散小波变换
3.7.5 小波变换的几个实例
3.8 基音周期估计
3.8.1 自相关法
3.8.2 平均幅度差函数法
3.8.3 并行处理法
3.8.4 倒谱法
3.8.5 简化逆滤波法
3.8.6 小波变换法
3.8.7 基音检测的后处理
3.9 共振峰估计
3.9.1 带通滤波器组法
3.9.2 倒谱法
3.9.3 LPC法
3.10 思考与复习题
第4章 矢量量化技术
4.1 概述
4.2 矢量量化的基本原理
4.3 矢量量化的失真测度
4.3.1 欧氏距离测度
4.3.2 线性预测失真测度
4.3.3 识别失真测度
4.4 矢量量化器的最佳码本设计
4.4.1 LBG算法
4.4.2 初始码本的生成
4.5 矢量量化技术的优化设计
4.6 思考与复习题
第5章 隐马尔可夫模型
5.1 隐马尔可夫模型的引入
5.2 隐马尔可夫模型的定义
5.2.1 离散Markov过
5.2.2 隐Markov模型
5.2.3 HMM的基本元素
5.3 隐马尔可夫模型的基本算法
5.3.1 前向-后向算法
5.3.2 维特比算法
5.3.3 Baum-Welch算法
5.4 隐马尔可夫模型的各种结构类型
5.4.1 按照HMM的状态转移概率矩阵(A参数)分类
5.4.2 按照HMM的输出概率分布(B参数)分类
5.4.3 其他一些特殊的:HMM的形式
5.5 隐马尔可夫模型的一些实际问题
5.5.1 下溢问题
5.5.2 参数的初始化问题
5.5.3 提高HMM描述语音动态特性的能力
5.5.4 直接利用状态持续时间分布概率的HMM系统
5.6 思考与复习题
第6章 人工神经网络初步
6.1 人工神经网络简介
6.2 人工神经网络的构成
6.2.1 神经元
6.2.2 神经元的学习算法
6.2.3 网络拓扑
6.2.4 网络的学习算法
6.3 几种用于模式识别的神经网络模型及其主要算法
6.3.1 单层感知器
6.3.2双层感知器
6.3.3 多层感知器
6.3.4 径向基函数神经网络的分类特性
6.3.5 自组织特征映射模型
6.3.6 时延神经网络
6.3.7 循环神经网络
6.3.8 支持向量机
6.4 用神经网络进行模式识别的典型做法
6.4.1 多输出型
6.4.2 单输出型
6.5 思考与复习题
第7章 语音编码
7.1 概述
7.2 语音信号压缩编码的原理和压缩系统评价
7.2.1 语音压缩的基本原理
7.2.2 语音编码的关键技术
7.2.3 语音压缩系统的性能指标和评测方法
7.3 语音信号的波形编码
7.3.1 脉冲编码调制
7.3.2 自适应预测编码
7.3.3 自适应增量调制和自适应差分脉冲编码调制
7.3.4 子带编码
7.3.5 自适应变换编码
7.4 语音信号的参数编码
7.4.1 线性预测声码器
7.4.21P-10编码器
7.5 语音信号的混合编码
7.6 现代通信中的语音信号编码方法
7.6.1 EVRC算法基本原理
7.6.2 EVRC算法概述
7.7 思考与复习题
第8章 语音合成
8.1 概述
8.2 共振峰合成法
8.3 线性预测合成法
8.4 语音合成专用硬件简介
8.5 PSOLA算法合成语音
8.6 文语转换系统
8.7 思考与复习题
第9章 语音识别
9.1 概述
9.2 语音识别原理和识别系统的组成
9.2.1 预处理和参数分析
9.2.2 语音识别
9.2.3 语音识别系统的基本数据库
9.3 动态时间规整
9.4 孤立字(词)识别系统
9.4.1 基于MQDF的汉语塞音语音识别系统
9.4.2 基于概率尺度DP识别方法的孤立字(词)识别系统
9.5 连续语音识别系统
9.6 连续语音识别系统的性能评测
9.6.1 连续语音识别系统的评测方法以及系统复杂性和识别能力的测度
9.6.2 综合评估连续语音识别系统时需要考虑的其他因素
9.7 思考与复习题
第10章 说话人识别与语种辨识
10.1 概述
10.2 说话人识别方法和系统结构
10.2.1 预处理
10.2.2 说话人识别特征的选取
10.2.3 特征参量评价方法
10.2.4模式匹配方法
10.2.5 说话人识别中判别方法和阈值的选择
10.2.6 说话人识别系统的评价
10.3 应用DTW的说话人确认系统
10.4 应用VQ的说话人识别系统
10.5 应用HMM的说话人识别系统
10.5.1 基于HMM的与文本有关的说话人识别
10.5.2 基于HMM的与文本无关的说话人识别
10.5.3 基于HMM的指定文本型说话人识别
10.5.4 说话人识别HMM的学习方法
10.5.5 鲁棒的HMM说话人识别技术
10.6 应用GMM的说话人识别系统
10.6.1 GMM模型的基本概念
10.6.2 GMM模型的参数估计
10.6.3 训练数据不充分的问题
10.6.4 GMM模型的识别问题
10.7 说话人识别中尚需进一步探索的研究课题
10.8 语种辨识的原理和应用
10.8.1 语种辨识的基本原理和方法
10.8.2 语种辨识的应用领域
10.9 思考与复习题
第11章 语音转换与语音隐藏
11.1 语音转换的原理和应用
11.2 常用语音转换的方法
11.2.1 频谱特征参数转换
11.2.2 基音周期转换
11.2.3 韵律信息转换
11.3 语音分析模型和语音库的选择
11.3.1 语音分析模型
11.3.2 语音库的设计
11.4 应用CMM的语音转换
11.5 语音转换的研究方向
11.6 语音信息隐藏的原理及应用
11.7 语音信息隐藏的常用方法
11.8 语音信息隐藏系统的评价标准
11.9 语音信息隐藏需要研究和解决的问题
11.10 思考与复习题
第12章 语音信号中的情感信息处理
12.1 概述
12.2 语音信号中的情感分类和情感特征分析
12.2.1 情感的分类
12.2.2情感特征分析
12.3 语音情感识别方法
12.3.1 主元分析法
12.3.2 神经网络方法
12.3.3 混合高斯模型法
12.4 情感语音的合成
12.5 今后的研究方向
12.6 思考与复习题
第13章 耳语音信号处理
13.1 耳语音的声学特征分析
13.1.1 音长
13.1.2 音高
13.1.3 声调
13.1.4共振峰频率
13.1.5 耳语音美尔频率倒谱特征参数分析
13.2耳语音增强
13.3 耳语音转换正常音
13.4耳语音识别
13.4.1 孤立字(词)的耳语音识别
13.4.2 耳语音的说话人识别
13.5 耳语音的研究方向
13.6 思考与复习题
第14章 语音增强
14.1 概述
14.2 语音特性、人耳感知特性及噪声特性
14.2.1 语音特性
14.2.2入耳感知特性
14.2.3 噪声特性
14.3 滤波法语音增强技术
14.3.1 陷波器法
14.3.2 自适应滤波器
14.4 利用相关特性的语音增强技术
14.4.1 自相关处理抗噪法语音增强技术
14.4.2 利用复数帧段主分量特征的降噪方法
14.5 非线性处理法语音增强技术
14.5.1 中心削波法
14.5.2 同态滤波法
14.6 减谱法语音增强技术
14.6.1 基本原理
14.6.2 基本减谱法的改进
14.7 利用Weiner滤波法的语音增强技术
14.7.1 基本原理
14.7.2 Weiner滤波的改进形式
14.8 思考与复习题
附录A 语音信号LPC美尔倒谱系数(LPCMCC)分析程序
附录B 利用HMM的孤立字(词)语音识别程序
附录C 汉英名词术语对照”
参考文献
……
序言 《语音信号处理(第2版)》是根据机械工业出版社高等院校通信与信息专业规划教材编审出版规划,由通信与信息专业规划教材编审委员会编审、推荐出版的。自从2003年3月第1版出版以来,时间已过去了近6个年头。几年来,随着我国高等教育的发展和教学要求的提高,特别是本学科领域技术的进步,以及新的应用需求的不断提高,相应地对本教材内容的更新提出了紧迫的要求和更高的标准。正是在这样的背景下,编者在保持教材总体格局不出现大变化的前提下,对第1版教材进行了修订、补充和部分更新。
。
新版教材力求系统地反映语音信号处理的基本原理和方法,以及近年来该领域的新进展和新技术;突出基本概念、原理、方法、应用、研究现状及学科发展趋势,而不是去过多追求数学推导和证明的严谨性。在篇幅上,按照基础一分析一处理与应用的顺序组织材料;在选材上,使其既能满足教学需要,又反映出本学科领域近年来发展的新成果。
第2版教材除了增减了部分章节以外,基本保持了原作风貌。总体结构同第1版基本相同,认真修订了第1版的部分错误和疏漏。在内容的增删与更新方面,根据作者多年来给本科生和硕士研究生讲授“语音信号处理”课程的体会,除了对部分较烦杂的内容进行了删减以外,还增加了一些现在较流行的内容,如基于小波的语音参数分析技术、语音转换和语音隐藏技术、耳语音信号处理技术等。
《语音信号处理(第2版)》主要面向信号与信息处理、电路与系统、通信与电子工程、模式识别与人工智能、计算机信息处理等学科有关专业的高年级学生和研究生,也可以作为从事语音信号处理这一领域科研工作的技术人员的参考书。
《语音信号处理(第2版)》的参考学时为本科生32学时、研究生40学时,可以根据不同的教学要求对其内容进行适当取舍,灵活安排讲课学时数。
语音信号处理是一门理论性强、实用面广、内容新、难度大的交叉学科,同时这门学科又处于陕速发展之中,尽管作者在编写过程中始终注重理论紧密联系实际,力求以尽可能简明、通俗的语言,深入浅出地将这门学科介绍给读者,但因作者水平有限,缺点错误在所难免,敬请广大读者批评指正。
文摘 插图:

第3章 语音信号分析
3.1 概述
语音信号分析是语音信号处理的前提和基础,只有分析出可表示语音信号本质特征的参数,才有可能利用这些参数进行高效的语音通信、语音合成和语音识别等处理,况且语音合成的音质好坏和语音识别率的高低,也都取决于对语音信号分析的准确性和精确性。因此,语音信号分析在语音信号处理应用中具有举足轻重的地位。
贯穿于语音分析全过程的是“短时分析技术”。因为从整体来看,语音信号的特性及表征其本质特征的参数均是随时间而变化的,所以它是一个非平稳态过程,不能用处理平稳信号的数字信号处理技术对其进行分析处理。但是,由于不同的语音是由人的口腔肌肉运动构成声道某种形状而产生的响应,而这种口腔肌肉运动相对于语音频率来说是非常缓慢的,所以从另一方面看,虽然语音信号具有时变特性,但是在一个短时间范围内(一般认为在10~30ms的短时间内),其特性基本保持不变,即相对稳定,因而可以将其看做一个准稳态过程,即语音信号具有短时平稳性。所以任何语音信号的分析和处理必须建立在“短时”的基础上,即进行“短时分析”,将语音信号分为一段一段来分析其特征参数,其中每一段称为一“帧”,帧长一般取为10~30ms。这样,对于整体的语音信号来讲,分析出的是由每一帧特征参数组成的特征参数时间序列。
根据所分析出的参数性质的不同,可将语音信号分析分为时域分析、频域分析、倒频域分析等;根据分析方法的不同,又可将语音信号分析分为模型分析方法和非模型分析方法两种。时域分析方法具有简单、计算量小、物理意义明确等优点,但由于语音信号最重要的感知特性反映在功率谱中,而相位变化只起着很小的作用,所以相对于时域分析来说,频域分析更为重要。