丢弃冗余块的语音识别Transformer解码加速方法.pdf

资源描述

1、第 49卷第 10期2023年 10月Computer Engineering 计算机工程丢弃冗余块的语音识别 Transformer解码加速方法赵德春1，舒洋2，李玲1，陈欢1，张子豪2（1.重庆邮电大学生物信息学院，重庆 400065；2.重庆邮电大学自动化学院，重庆 400065）摘要：Transformer及其变体因具有强大的上下文建模能力而成为语音识别领域的主流模型，它们能够取得良好的识别结果，但是其中的解码器使用带有冗余信息的全部编码器特征，导致模型的解码速度受到限制。为提高解码器效率，提出一种丢弃冗余空白块的 Transformer 解码加速方法 DRB。以 CTC/AED

2、结构作为语音识别基本框架，利用 CTC 产生的尖峰序列去除编码特征中连续冗余的空白帧，减小编码输出特征的长度，降低解码器的计算量，从而提高模型的解码速度。采用预训练加微调的方式对使用 DRB方法的语音识别模型进行训练，以减小因盲目对齐而产生的额外训练开销。引入 Intermediate CTC 结构提高模型训练时对编码器的约束能力，减小 DRB 判断冗余帧的误差，降低 DRB方法对模型识别精度造成的损失。在开源数据集 AISHELL-1与 LibriSpeech上进行实验，结果表明，使用 DRB 的两阶段重打分非自回归解码方法在 2 个数据集上均能对解码速度取得 58%左右的加速效果，且识别

3、精度几乎没有损失，实现了解码效率的显著提升。关键词：语音识别；Transformer解码器；CTC模型；特征压缩；解码加速开放科学（资源服务）标志码（OSID）：源代码链接：https：/ Transformer解码加速方法 J.计算机工程，2023，49（10）：105-111，119.英文引用格式：ZHAO D C，SHU Y，LI L，et al.Speech recognition Transformer decoding acceleration method with discarding redundant blocks J.Computer Engineering，2023，4

4、9（10）：105-111，119.Speech Recognition Transformer Decoding Acceleration Method with Discarding Redundant BlocksZHAO Dechun1，SHU Yang2，LI Ling1，CHEN Huan1，ZHANG Zihao2（1.School of Bioinformatics，Chongqing University of Posts and Telecommunications，Chongqing 400065，China；2.School of Automation，Chongqin

5、g University of Posts and Telecommunications，Chongqing 400065，China）【Abstract】Transformer and its variants have become mainstream models in the field of speech recognition owing to their excellent contextual modeling capabilities.Although they can achieve good recognition results，the decoding speed

6、is limited because the decoder uses all encoder features including redundant information.To improve the efficiency of the decoder，a Transformer decoding acceleration method DRB that entails the discarding of redundant blank blocks is proposed.Using the Connectionist Temporal Classification/Attention

7、-based Encoder-Decoder（CTC/AED）structure as the basic framework for speech recognition，the method uses the peak sequence generated by CTC to remove continuous redundant blank frames from the encoded features，reduce the length of the encoded output features，lower the computational complexity of the d

8、ecoder，and thus improve the decoding speed of the model.The speech recognition model using DRB method is pre-trained and fine-tuned to reduce the additional training cost caused by blind alignment.Introducing the Intermediate CTC structure improves the constraint ability of the encoder during model

9、training，reduces the error of DRB in judging redundant frames，and reduces the loss of model recognition accuracy.The results of the experiments performed on the open-source datasets AISHELL-1 and LibriSpeech show that，the two-stage rescoring non-autoregressive decoding method using DRB can achieve a

10、n acceleration effect of approximately 58%in decoding speed on both datasets，with almost no loss in recognition accuracy.Thus，a significant improvement in decoding efficiency is achieved.【Key words】speech recognition；Transformer decoder；CTC model；feature compression；decoding accelerationDOI：10.19678

11、/j.issn.1000-3428.0065685基金项目：重庆市自然科学基金（cstc2019jcyj-msxmX0275）；重庆市研究生科研创新项目（CYS22460）。作者简介：赵德春（1975），男，教授、博士，主研方向为自然语言处理；舒洋、李玲、陈欢、张子豪，硕士研究生。收稿日期：2022-09-05 修回日期：2022-11-28 Email：人工智能与模式识别文章编号：1000-3428（2023）10-0105-07 文献标志码：A 中图分类号：TP812023年 10月 15日Computer Engineering 计算机工程0概述自动语音识别是最便捷的人机交互技术

12、之一，目的是让机器自动将人类语音信号转变为对应的文本信息。当前，主流的语音识别方法是单一神经网络结构组成的端到端模型，主要有 3类，分别为连接时序分类器（Connectionist Temporal Classification，CTC）1-2、循环神经网络换能器（RNN-Transducer，RNN-T）3-4以及基于注意力机制的编解码模型（Attention-based Encoder-Decoder，AED）5-7。端到端模型将传统语音识别系统中的声学、发音和语言模型整合到一个网络结构中，使得它们可以只针对一个目标函数进行优化，识别准确率更高8。CT

13、C通过引入空白符来实现语音序列与文本序列的对齐表达，使用动态规划策略高效地寻找所有潜在的对齐路径，结合前馈网络层使得模型能快速得到帧级别的分类输出。然而，模型因未考虑字与字、语句关系的独立性假设，严重限制了模型的性能。RNN-T在解码时以语音编码结果和之前的输出序列共同作为输入，同时结合额外的预测网络实现了对声学模型与语言模型的共同优化。RNN-T在流式识别任务中相比其他结构更有优势，但是模型不容易训练，即使使用预训练的方法，其训练过程也很繁琐9。AED 模型通过注意力机制实现声学特征帧与文本信息的软对齐，这种方式使得输入序列与输出序列可以不严格对齐，因此，模型具有更强的上下文建模能力。但是，

14、对于强对齐特性的语音识别任务，容易导致模型的训练因盲目对齐而耗费大量时间。为此，CTC/Attention 混合模型6，10将 CTC 引入AED 模型的编码器网络中，利用 CTC 损失函数计算时的严格单调性加强模型对编码器的对齐约束。这种多任务学习方式既能加快模型的收敛速度，又能提高模型的鲁棒性。另一种基于自注意力机制的编解码器模型Transformer11因具有强大的上下文建模能力和高效的训练方式，在语音识别任务中也取得了巨大成功。语音 Transformer 模型9，12-13由编码器与解码器 2 个部分构成，它们均由自注意力层与前馈网络层组成的网络块加

15、残差的连接方式堆叠而成。Transformer解码器的工作方式与其他 AED 模型一样，解码当前时刻时需要之前解码结果与全部编码器的声学特征，这导致解码时间较长，限制了模型的应用13。为此，文献 14 通过池化 CTC 尖峰序列生成具有分段表示能力的编码器输出掩码序列，使用更多置零的掩码在 Transformer交叉注意力层实现编码特征的压缩表达，加快该层的计算过程，提高解码速度。虽然置零掩码加速了部分解码计算过程，但是并没有真正减少解码器的计算量。针对编码声学特征的紧凑型表达，文献 15 使用自动编码器来产生分段的紧凑型语音表示，但是这显著增加了语音识别任务的建模难度与训练成本。为了进一步加

16、快语音识别 Transformer 解码过程，本文提出一种丢弃冗余块（Discarding Redundant Blocks，DRB）的 Transformer解码加速方法。该方法利用 CTC分类器产生的尖峰序列去除编码器输出特征中连续冗余的空白帧，减小解码器所需的特征序列长度。在 CTC/AED 模型结构中为避免盲目对齐所产生的额外训练开销，DRB 使用微调的方式单独训练 Transformer解码器，以解决训练与识别不匹配的问题。同时，为了减小 CTC 对编码特征冗余帧判断的误差，引入 Intermediate CTC 结构提高模型训练时对编码器的约束能力。1相关理论基础 1.1语音 Tr

17、ansformer解码器语音 Transformer模型12是基于自注意力机制的编解码网络，模型结构由多头自注意力层、前馈网络层、提供序列位置信息的位置编码模块组成，每层之间使用层归一化与残差连接的方式来增强训练时的稳定性。Transformer解码器与编码器在网络结构上相似，不同之处在于解码器中有一个自注意力层查询矩阵是文本序列，而对应的键与值都是编码器输出的声学特征序列，这也被称为交叉注意力层，它使得解码器中的语言信息可以与声学信息相互融合，模型在解码时不仅能够看到之前解码的上文语言信息，还能参考声学上下文信息，从而更准确地预测下一个词。解码器中主要的网络堆叠块计算如下：Zj=Zj+MHS

18、Ajself(ZjZjZj)Zj=Zj+MHSAjcross(ZjXeXe)Zj+1=Zj+FFNj(Zj)（1）其中：Zj、Zj+1分别为第j层的输入与输出；Xe是编码器输出的声学特征；FFN表示前馈网络层；MHSAself与MHSAcross都是多头注意力层，输入参数依次为自注意力查询、键、值矩阵。解码器以编码器输出的编码特征与之前解码结果作为输入，进行反复迭代计算，直到识别出特殊的停止字符。解码计算过程如下：Yt=Decoder(Y1：t-1Xe)（2）其中：Yt是长度为T的目标文本序列YT在t时刻的解码输出；Decoder()表示解码器；Xe表示编码器输出的语音特征序列。1.2两阶段重

19、打分的非自回归解码方式Transformer模型在解码时通过引入之前时刻的解码结果见式（2），为解码过程引入了充足的语言信息，从而有效提高了识别准确率。但是，这种迭代计算的解码方式无法并行化，给模型解码带来了较106第 49卷第 10期赵德春，舒洋，李玲，等：丢弃冗余块的语音识别 Transformer解码加速方法高延时。为实现快速解码同时避免 Transformer解码器的自回归解码过程，文献 9 提出两阶段重打分的非自回归解码方式。该方式在 CTC/Attention 混合模型中使用 Transformer 解码器为 CTC 解码的 N 个概率中最高的结果重新评分，根据 2 次评分权重

20、取最终结果。对于每个需要重打分的结果，Transformer解码器只需进行一次前向计算而无须迭代计算，因此，这种非自回归解码方式的解码速度更快。在 WeNet16中，第一阶段解码使用 CTC 前缀波束搜索方式来获得 N 个结果，在 AISHELL-1 数据集17中取得了较先进的识别结果。1.3Intermediate CTCCTC利用高效的动态规划算法，通过计算所有可能存在的对齐序列概率来求取给定目标序列的最大后验概率。将CTC作为神经网络的损失函数，可以使模型无须帧级别的标注即可得到帧级别的分类预测输出，这将大幅简化语音识别任务中的声学建模过程。给定帧数为 T的语

21、音输入特征XT，模型输出正确标签序列YL的后验概率为P(YL|XT)，计算如下：P(YL|XT)=QT B-1(YL)P(QT|XT)P(QT|XT)=t=1TP(Qt|Xt)（3）其中：QT表示YL的某一个有效对齐序列（指通过合并重复字与删除空白符能得到的目标序列）；B-1(YL)是YL有效序列的集合。在模型训练时，最小化给定标签序列的后验概率负对数值即可，损失函数如下：LCTC=-ln P(YL|XT)（4）CTC 简单有效，成为最早也是最广泛应用的端到端语音识别技术。最近有研究表明，CTC 损失函数不仅能作为 ASR 端到端模型的优化目标，还能将其扩展到编码器网络的底层，用来加强对编码器

22、前端网络的约束，提高模型的收敛速度与鲁棒性，达到正则化的目的18-19，这种方法被称为 Intermediate CTC。在模型训练时取编码器的中间层输出作为额外的 CTC 损失值，与编码器最后层的损失共同优化模型，计算方式如下：LCTC_loss=(1-)LCTC(YL|Xl)+LCTC(Y|Xl/2)（5）其中：为超参数；Xl、Xl/2分别表示堆叠块数为l的编码器中第l层与第l/2层的输出序列。2DRB方法 2.1DRB方法流程CTC模型的尖峰现象如图 1所示，横轴表示语音特征序列，纵轴表示每帧对应每个字符（建模单元为字）的概率，不同曲线表示不同的字符（类别），其中，

23、空白帧表示 CTC 引入的空白字符。图 1中语音特征共61帧，对应的文本信息为“加速识别解码”。CTC尖峰现象是指模型输出的后验概率序列中某一帧的后验概率集中在某一个词（类）上，而不是分散在几个词中。根据 CTC模型最大化给定序列对应后验概率的优化准则，可以将其理解为模型对尖峰帧比其他帧有更确定的判断。如果空白帧的概率越大，就表明这一帧的声学特征包含的文本信息越不丰富，仅为空白信息，即编码器输出特征中的连续空白帧是不重要的声学特征，而非空白帧中会包含相邻区域中更显著、有用的文本信息。因此，通过去除这些连续空白冗余帧，可以实现对编码器输出声学特征序列的有效压缩，即编码特征的紧凑型表达。然而，并

24、不是所有空白帧都是毫无意义的，根据 CTC的建模假设，它可以作为词音频信息片段解码时的重要分界标志。因此，在去除冗余帧时应适当保留部分空白帧。本文提出编码特征的紧凑型表达处理方式DRB。DRB 作用于模型的编码器输出端，依靠 CTC尖峰序列去除编码输出特征中的冗余部分，实现对解码声学特征的紧凑型表达，进而减小解码器的计算量，提高解码效率。DRB方法流程如图 2所示。图 1CTC尖峰现象示意图Fig.1Schematic diagram of the CTC spike phenomenon图 2DRB方法流程Fig.2Procedure of the DRB method1072023年 10

25、月 15日Computer Engineering 计算机工程2.2模型结构为了确保模型拥有较好的识别性能以及较快的收敛速度，本文网络模型主体使用 CTC/AED 多任务学习结构的 Conformer16。使用 DRB 方法的模型结构如图 3 所示，由 Conformer 编码器20、CTC 模块、DRB处理层和 Transformer解码器等 4个部分组成。Conformer 编码器通过添加卷积层增强Transformer 编码器捕获语音序列局部信息的能力，使它能更适合语音与音频建模21。CTC模块主要由全连接层和 Softmax 函数组成的分类器构成，它与CTC Lo

26、ss 函数组合，用于在训练时计算编码器的CTC 损失值，该值以多任务学习的形式辅助模型训练。在模型预测时，通过分类器得到编码器输出的尖峰序列，用于 DRB 层实现对编码器输出的紧凑型表达，或进行模型的 CTC 解码。DRB 方法的计算过程如图 2 所示，根据 CTC 分类器剔除不包含丰富文本信息的冗余声学帧，实现对编码器输出特征序列去冗余的目的。因为 DRB 中涉及的神经网络层运算只是复用 CTC 模块中的全连接层进行分类，所以该方法并没有为模型增加额外的可学习参数。DRB没有改变模型参数的复杂度，用于 CTC/AED 结构时仅需微调训练即可使用。使用 Transformer解码器，它由文本词

27、嵌入层、相对位置编码模块、Transformer解码块（见第 1.1节）、Softmax分类器组成。2.3模型训练因为 DRB 方法依赖于 CTC 产生的尖峰序列来实现编码器声学特征的紧凑型表达，所以尖峰序列中空白帧判断是否准确对模型最终的识别结果至关重要。为此，通过预训练加微调的方式来训练使用 DRB 方法的 Conformer 模型，减少模型的盲目对齐训练，加快模型收敛速度。同时，为了减小错误删除部分声学特征帧带来的模型识别精度损失，使用 Intermediate CTC 来增强网络对模型编码器的约束，提高 CTC 尖峰序列的准确度。模型训练过程如下：1）预训练。首先不添加 DRB 层，C

28、onformer 模型与普通多任务模型（CTC/Attention）训练方式一样，损失函数计算如下：Ljoin=Lctc+(1-)Latt（6）其中：是超参数；Lctc是编码器的 CTC 损失值；Latt是解码器的 CE损失值。如果使用 Intermediate CTC 来增强模型对编码器的约束，则模型训练损失函数Lctc应改为LCTC_loss见式（5），网络结构无须更改。2）微调。冻结网络中编码器与 CTC分类器模块的模型参数，使其不参与模型参数的更新训练。添加 DRB 处理层，使用处理后的编码声学特征参与解码器的计算。在预训练模型的基础上再次训练解码器，使解码器适应 DRB 处理后编码器

29、输出的改变，避免出现模型训练不匹配的问题。因此，微调模型只需要使用交叉熵损失函数来优化解码器参数，即将式（6）中的参数赋值为 0，即可得到微调训练的模型损失函数。3实验结果与分析 3.1实验数据集实验开源数据集包括中文语音数据集AISHELL-117与英文数据集 LibriSpeech。前者由150 h 的训练集、10 h 的验证集以及 5 h 的测试集数据构成，字表由训练集中得到的 4 230 个汉字组成；后者包括 960 h 的训练集，验证集与测试集均是5.4 h，词表是使用字节对编码算法在训练文本中提取的 5 000

30、个词。3.2实验环境硬件配置：中央处理器 AMD R6930K，运行内存 64 GB；显卡型号 NVIDIA GeForce GTX 2080。软件环境：操作系统 64 位 Ubuntu18.04，深度学习框架 PyTorch1.10。软件工具包采用 WeNet16，与 Kaldi22和 ESPnet23相比，WeNet 完全基于 PyTorch 生态，拥有更简洁的语音识别模型框架，并且对 AED 模型有更好的优化效果，有利于开展模型的对比实验。3.3实验设置对于所有实验，语音输入特征使用 80 维的图 3使用 DRB方法的 Conformer模型结构Fig.3Con

31、former model structure using DRB method108第 49卷第 10期赵德春，舒洋，李玲，等：丢弃冗余块的语音识别 Transformer解码加速方法FBank信号，帧长为 25 ms，帧移为 10 ms。在训练过程中使用 2 种常用的数据扩充手段，即随机速度扰动和 SpecAugment24，分别是在 0.9，1.1 中随机选取速度扰动值做时域信号处理，以及对每个 FBank信号在时域与频率方向都做 2 个随机掩码，最大掩码宽度时域 T=50，频域 F=10。语音特征进入编码器之前，进行倒谱均值方差归一化（CMVN）处理，并通过由 2 层 2D 卷积组成的

32、下采样层降低模型计算量，卷积核大小为 33，步长为 2。训练时使用 Adam 优化器，学习率调整器的预热训练步为 25 000。模型的最优参数使用训练收敛后验证集中损失值最低的20个轮次的平均值。Conformer 编码器堆叠块个数为 12，解码器堆叠块个数为 6，多头自注意力层头个数为 4，注意力编码维度为 256，前馈网络隐藏层单元个数为2 048，多任务学习的权重系数=0.3，=0.7，Intermediate CTC 共 2 层，其间隔为 4，这 2 层的权重分别为 0.3、0.7。实验使用 2种不同的解码方式来验证所提 DRB方法对 T

33、ransformer解码的加速效果，一种是结合波束搜索的传统自回归解码方式，另一种是两阶段重打分的非自回归解码方式。3.4结果分析在测试集上对模型进行性能评估，中文与英文分别使用字错率（Character Error Rate，CER）、词错率（Word Error Rate，WER）作为识别准确率的评价指标，结果保留 2 位小数。使用 Batch_size=1 时，将模型推理时的实时率 RTF 作为解码速度的衡量指标，结果保留 4位小数。S-D-I为计算 CER 的编辑距离时产生的错误字个数，错误类型分别是替换、删除、插入。CERR、RTFR 分别是 DRB 方法对模型CER与

34、 RTF改善的相对百分比值。实验解码器的波束搜索参数 Beam_size默认为 10。为了更好地探究 DRB 对 Transformer 自回归解码的改善效果，在 CPU 与 GPU 上分别进行测试，实验结果如表 1所示。从表 1可以得出：1）观察 RTFR指标可以看出在 CPU上 DRB方法能将解码速度平均提高 20%左右，但是 DRB 方法在GPU 设备上却没有提升效果，RTF 反而有轻微的下降，最差的 RTFR 为1.2%。导致这种结果的原因可能是 DRB 方法通过压缩编码特征序列的长度，减小解码器交叉注意力层的矩阵运算量，从而加快解码计算过程，这对没有矩阵加速运算的 CPU 或其他微处

35、理器设备而言，能在反复迭代计算的过程中提升解码速度，但是对于擅长矩阵运算的 GPU 而言却没有改善效果，反而会因为 DRB 方法导致额外的计算开销，从而使得 RTF轻微变大。2）观察使用 DRB 方法后的 CER 指标可以看出，DRB 方法对 2 组 Conformer 模型的 CER 值分别提升 3.9%与 1.8%，模型识别准确率有轻微下降。这表明 DRB 在提高解码速度的同时对模型识别精度有一定损失。通过 S-D-I 结果可以看出，“删除错误”为错误增加的主要类型，分析其原因可能是：DRB 是下采样处理，在剔除缺乏文本信息的冗余帧的同时也剔除了其中部分带有文本信息的帧

36、或不正确剔除了有用帧（尖峰序列不准确），使Transformer 解码器在解码时缺失部分声学特征帧信息从而产生额外的删除错误，又因为自回归解码的性质导致模型在后续解码过程中增加了一些其他类型的错误。3）从实验结果中还可以看出，使用 Intermediate CTC 加强模型对编码器的约束，不仅显著提高了模型的鲁棒性，还降低了 DRB 给模型精度带来的损失，精度损失减小一半。这是因为 DRB 方法依赖模型 CTC 尖峰序列来判断是否去除冗余帧，当使用Intermediate CTC 增强对编码器的约束后，CTC 尖峰序列准确性得到提升，DRB 就能更准确地去除冗余帧，减

37、少识别精度损失。由于两阶段重打分的非自回归解码方法在推理时只进行一次 Transformer解码器的前向计算，因此只在解码器交叉注意力层中使用 DRB，并不会给模型带来较好的解码加速收益。因此，在两阶段重打分解码方式的第一个解码步骤中，也使用 DRB 处理后得到的压缩特征作为前缀波束解码的输入，在GPU 上的实验结果如表 2表 4 所示，表 4 中 Conf 指Conformer+Inter CTC模型。表 1AISHELL-1中 DRB对 Transformer自回归解码的改善效果 Table 1Improvement effect of DRB on Transformer autoreg

38、ressive decoding in AISHELL-1模型ConformerConformer+DRBConformer+Inter CTCConformer+Inter CTC+DRBCER/%5.115.314.814.90S-D-I5 030-217-1045 085-368-1314 647-253-1404 674-322-140RTFCPU0.045 50.035 30.045 20.036 5GPU0.016 80.016 70.016 90.017 1CERR/%3.91.8RTFR/%CPU2219GPU0.11.21092023年 10月 15日Computer Eng

39、ineering 计算机工程结合表 2表 4的实验结果可以看出：1）与 DRB 对自回归解码方式的改善结果不同，将 DRB 用于重打分非自回归解码方式上时，模型在GPU 上的推理速度也能得到显著提升，2 个数据集中 RTF 均提高 58%左右。结合表 4 可以看到，这种提升幅度随着参数 Beam_size的大小而有所改变，但是整体上是有明显的解码加速效果。两阶段重打分的非自回归方法因为 Transformer 解码器只运行一遍，所以解码的大部分时间开销在第一阶段的CTC 前缀波束搜索解码过程中产生。将 DRB 处理后的特征序列用于第一阶段解码时，波束法的搜索路径变短，

40、缩短了这一过程的耗时，进而加快了整个解码过程。Beam_size 越大，解码搜索的路径越宽，识别精度得到改善的同时解码耗时会显著增加，此时 DRB的改善效果就会越显著。2）非自回归解码方式上的识别准确率与自回归解码中结果相似，因为 DRB 使得特征序列中某部分特征帧被删除，导致重打分的第一阶段解码时缺少了部分有用帧，模型删除错误随之增加。然而，DRB删除部分冗余特征帧后，使得重打分阶段Transformer 的注意力层能更好地关注有用帧信息，这在一定程度上降低了模型替换类型错误的产生，使得模型识别精度得到改善。为进一步验证 DRB 对 Transformer 解码

41、性能的提升效果，将其与其他端到端模型进行对比，实验结果如表 5、表 6所示。表 5、表 6是使用 DRB的重打分解码模型与其他Transformer解码模型的对比实验结果。本文使用的NVIDIA GeForce GTX 2080 硬件推理性能略高于Paraformer 与 Improved CASS-NAT 模型使用的NVIDIA Tesla V100 设备，低于 LASO-BERT 使用的NVIDIA GeForce GTX 2080TI，但是本文使用的方法能取得更优的性能。AL-NAT（S）使用 NVIDIA Tesla P4 设备，与本文模型取得的 RTF 结果相

42、近，但是表 5AISHELL-1上不同 Transformer解码模型的对比实验结果 Table 5Comparative experimental results of different Transformer decoding models on AISHELL-1模型Improved CASS-NAT25LASO-BERT26Paraformer27AL-NAT(S)28本文模型(+Inter CTC+DRB)CER/%dev4.95.24.64.94.2test5.305.805.205.304.57RTF0.023 00.004 00.017 00.005 00.004 7表 6L

43、ibriSpeech上不同 Transformer解码模型的对比实验结果 Table 6Comparative experimental results of different Transformer decoding models on LibriSpeech模型Conformer AT(M)20Improved CASS-NAT25AL-NAT(S)28本文模型(+Inter CTC+DRB)WER/%Test_clean2.33.13.62.7Test_other5.007.208.708.25RTF0.0140.0060.009表 2AISHELL-1中 DRB对 Transform

44、er非自回归解码的改善效果 Table 2Improvement effect of DRB on Transformer non-autoregressive decoding in AISHELL-1模型ConformerConformer+DRBConformer+Inter CTCConformer+Inter CTC+DRBCER/%4.704.684.524.51S-D-I4 696-134-924 677-146-824 516-133-864 495-146-80RTF0.017 70.007 30.017 80.007 5CERR/%0.40.2RTFR/%59.057.9表

45、 3LibriSpeech中 DRB对 Transformer非自回归解码的改善效果 Table 3Improvement effect of DRB on Transformer non-autoregressive decoding in LibriSpeech模型ConformerConformer+DRBConformer+Inter CTCConformer+Inter CTC+DRBTest_cleanWER/%2.742.752.722.70WERR/%0.40.7Test_otherWER/%8.598.648.308.25WERR/%0.60.6RTF0.022 10.009

46、 20.021 60.009 2RTFR/%58.457.4表 4AISHELL-1中DRB在不同Beam_size下非自回归解码的 RTF Table 4RTF of DRB for non-autoregressive decoding at different Beam_size in AISHELL-1Beam_size148Conf0.004 00.007 50.013 6Conf+DRB0.003 60.004 60.006 3RTFR/%10.038.753.7110第 49卷第 10期赵德春，舒洋，李玲，等：丢弃冗余块的语音识别 Transformer解码加速方法CER 值却

47、明显提高。因此，与对比 Transformer模型相比，使用 DRB 加速后的两阶段重打分解码方法具有更快、更好的识别性能。4结束语本文提出一种丢弃冗余空白块的 Transformer解码加速方法，以 CTC/AED 结构为基础，利用 CTC 分类器的尖峰序列去除编码器特征中冗余的空白帧，减小解码器的计算量，仅通过微调训练就可以有效地提高解码效率。在 AISHELL-1 与 LibriSpeech 数据集上进行实验，结果验证了所提方法在高信噪比数据集上的有效性。下一步将针对额外噪声环境下CTC 性能下降导致 DRB 方法误差变大的问题进行研究，在不损失识别精度的前提下提高解码效率。参考文献

48、1 GRAVES A，FERNNDEZ S，GOMEZ F，et al.Connectionist temporal classification：labelling unsegmented sequence data with recurrent neural networksC/Proceedings of the 23rd International Conference on Machine Learning.New York，USA：ACM Press，2006：369-376.2 吕浩田，马志强，王洪彬，等.基于CNN-CTC的蒙古语层迁移语音识别模型 J.中文信息学报，2022，

49、36（6）：52-60.L H T，MA Z Q，WANG H B，et al.CNN-CTC based layer transfer model for Mongolian speech recognition J.Journal of Chinese Information Processing，2022，36（6）：52-60.（in Chinese）3 GRAVES A，MOHAMED A R，HINTON G.Speech recognition with deep recurrent neural networksC/Proceedings of IEEE Internation

50、al Conference on Acoustics，Speech and Signal Processing.Washington D.C.，USA：IEEE Press，2013：6645-6649.4 LI J Y，ZHAO R，HU H，et al.Improving RNN transducer modeling for end-to-end speech recognition C/Proceedings of IEEE Automatic Speech Recognition and Understanding Workshop.Washington D.C.，USA：IEEE

展开阅读全文