A Large-Scale Evaluation of Speech Foundation Models (2024)

Shu-wen Yang,Heng-Jui Chang ${}^{*}$ ,Zili Huang ${}^{*}$ ,Andy T. Liu ${}^{*}$ ,Cheng-I Lai ${}^{*}$ ,Haibin Wu ${}^{*}$ ,Jiatong Shi,Xuankai Chang,Hsiang-Sheng Tsai,Wen-Chin Huang,Tzu-hsun Feng,Po-Han Chi,Yist Y. Lin,Yung-Sung Chuang,Tzu-Hsien Huang,Wei-Cheng Tseng,Kushal Lakhotia,Shang-Wen Li,Abdelrahman Mohamed,Shinji Watanabe,Hung-yi Lee ${}^{*}$ Equal contribution; sorted alphabetically

摘要

基础模型范式利用共享基础模型来实现各种任务的最先进 (SOTA) 性能，需要最少的下游特定建模和数据标注。事实证明，这种方法在自然语言处理（NLP）领域至关重要。然而，语音处理社区缺乏类似的设置来系统地探索该范式。在这项工作中，我们建立了语音处理通用性能基准（SUPERB）来研究语音范式的有效性。我们提出了一个统一的多任务框架，使用冻结的基础模型和任务专用的轻量级预测头来解决 SUPERB 中的语音处理任务。将我们的结果与社区提交的内容相结合，我们验证了基础模型范例对于语音来说是有希望的，并且我们的多任务框架简单而有效，因为性能最佳的基础模型在大多数 SUPERB 任务中显示出有竞争力的通用性。为了可重复性和可扩展性，我们开发了一个长期维护的平台，可以实现确定性基准测试，允许通过在线排行榜共享结果，并通过社区驱动的基准数据库促进协作，以支持新的开发周期。最后，我们进行了一系列分析，以深入了解 SUPERB 和语音基础模型，包括模型内部任务之间的信息流、加权和基准测试协议的正确性以及基准的统计显着性和鲁棒性。

索引术语：

语音、基础模型、自监督学习、表征学习、任务泛化、基准测试、评估

我简介

开发性能良好的深度学习网络成本高昂，涉及数据收集、建模、计算能力和训练时间。对于研究人员来说，每个特定用例的重复既耗时又成本高昂，并且会对环境产生严重影响[1]。为了解决这个问题，基础模型范式提出了一个框架，为下游用例[2]（图1)从集中式基础模型传输知识。用更多数据扩展基础模型¹¹1未标记的[3]或弱标记的[4]网络规模数据。和参数同时提高了许多下游任务的性能。这一优势已在自然语言处理 (NLP) [5] 和计算机视觉 (CV) [3] 中得到体现。这种范式是可取的，因为并非所有研究人员都有资源从头开始为每个感兴趣的任务训练大型模型，同时从基础模型转移知识²²2通常由大公司开源并公开可用。需要最少的计算和标注工作[6]。自监督学习 (SSL) 已成为开发基础模型的一种有前途的技术[6, 7]。该技术使用大量参数和未标记数据预训练模型，以学习强大且可转移的表示。经过对各种任务进行微调后，预训练模型实现了最先进的 (SOTA) 下游性能。SSL 是作为基础模型范式的实现而出现的，旨在使 SOTA 深度学习研究和部署民主化。

A Large-Scale Evaluation of Speech Foundation Models (1)

SSL 已在语音中得到探索[8,9,10,11,12,13,14,15,16,17,18]，并研究将 SSL 模型应用于不同的应用[19 、20、21、22]。然而，这些研究使用了不同的下游评估数据集和设置³³3例如，wav2vec2 完全针对 LibriSpeech ASR 进行了微调；使用 Pytorch-Kaldi 工具包中的 DNN-HMM 管道对 TERA 进行了评估；研究了 APC 在音素上的线性可分离性。如果没有标准化的评估协议，就很难知道哪种模型对于下游任务从业者来说更有效。. 此外，与 NLP 不同，NLP 的基础模型是跨多个任务和基准（如 GLUE [23, 24] 进行评估）的，语音 SSL 评估通常会缩小到特定任务（即 ASR）⁴⁴4例如，wav2vec 2.0 [15]、HuBERT [17] 和 data2vec [25 ] 在其原始论文中都仅使用 ASR 进行了评估。）。尽管这种方法突破了特定任务的限制，但该方法忽视了 SSL 泛化到新任务的潜力，并且该技术是否可以形成语音处理的基础模型仍然未知。

我们引入语音处理通用性能基准（SUPERB）来研究上述研究问题。SUPERB 通过 15 种广泛的语音处理任务标准化语音 SSL 评估。与传统的评估协议[26, 8]或现有的SSL基准测试[27,28,29,30,31,32]相比，SUPERB强调SSL的直接可用性广泛的实际应用模型。选择了15个任务，包括音素识别（PR）、关键词识别（KS）、说话人识别（SID）、情感识别（ER）、意图分类（IC）、槽位填充（SF）、自动语音识别（ASR）、说话人验证 (SV)、说话人二值化 (SD)、逐例查询口语术语检测 (QbE)、语音翻译 (ST)、域外 ASR (OOD-ASR)、源分离 (SS)、语音增强 ( SE）和语音转换（VC）。

我们通过统一的框架研究了 SSL 模型在这 15 个任务上的通用性，该框架展示了跨任务的竞争性能，并且可以轻松扩展到更多任务，如图1所示。在我们的框架中，使用来自所有冻结层的加权表示，将轻量级预测头安装在每个任务的冻结语音基础模型上。这些权重是与每个任务的预测头联合学习的。

我们的结果验证了 SSL 技术在构建语音基础模型方面很有前景。在这些 SSL 模型中，不同的层处理特定的任务，并且特定于任务的可学习加权和使它们能够执行各种下游任务。值得注意的是，扩展基础模型始终表现出所有任务的改进，并且顶级 SSL 模型通常可以达到或超过传统非 SSL 方法的性能。这些发现与 NLP [33, 5] 中的结果一致，显着的区别是我们可以使用简单的加权和协议实现每个任务的 SOTA 性能，而无需微调整个语音编码器。

我们在[34, 35]中定义了标准化任务设计，提供了基线模型结果，并发布了离线评估软件。在这项工作中，我们通过以下贡献扩展了之前的研究：

•
结合已发布的评估代码库⁵⁵5https://github.com/s3prl/s3prl/blob/main/s3prl/downstream/docs/superb.md，我们提供一个完整的平台，具有支持提交的在线排行榜⁶⁶6https://superbbenchmark.org/leaderboard。启动提交系统后，我们收到了 14 个新模型提交，这表明该平台正在成为一个活跃的社区。因此，我们将评估从最初的 14 个模型 [34] 扩展到 33 个模型，为现有的语音 SSL 文献提供了广泛的覆盖范围，并跟踪最新的研究（第 IV-B)。
•
我们验证 SSL 技术在 SUPERB 任务上是通用的⁷⁷7 请注意，所检查的 SSL 模型主要针对英语有声读物的单通道、单扬声器、阅读和干净语音进行预训练 (LibriSpeech [36])，缺乏说话者身份、韵律或重叠语音的丰富变化。因此，我们的评估设置稍微偏向预训练数据分布，以实际评估 SSL 模型超越 ASR 的任务泛化性作为第一步。当前的 SSL 模型对于一般语音理解和生成来说还远未通用。一个简单的反例是，由于单通道的性质，他们无法理解空间信息[37, 38]。，在各种学习目标、模型配置和计算预算中得到证明。领先的 SSL 模型展示了强大的任务通用性，实现了接近或优于非 SSL 方法的性能（第 IV-B2 节），尽管除了生成需要低级声学细节的任务（第 IV-B3 节）。
•
我们观察到 SSL 模型的冻结层上的可学习加权和优于传统的评估协议：使用冻结的最后一层。此外，单独的单层基准测试有时可以产生更好的结果。因此，需要扫描所有层以找到给定特定任务的最佳层(V-B2 节）。这种现象在 VC 上尤其明显，因为该任务有利于具有更好的源说话人不变性的表示⁸⁸8 大量的 VC 作品[39,40,41]旨在学习与说话人无关的语音表示，以便于迁移到未见过的源说话人在测试阶段。我们使用术语说话人不变性来描述表示独立于说话人变化的程度。. 我们建议根据这一发现对 VC 进行逐层单层基准测试(V-B3 节）。
•
基于之前的工作[42]，我们确认层权重⁹⁹9 对所有层以及下游模型进行加权求和后，我们获得每个层的权重，以促进开发集上的最佳性能。在本文中，我们将这些训练后的权重称为层权重。加权和协议学习到的内容并不能准确反映 SUPERB 任务的层性能。结果表明，层权重对于解释 SSL 模型内的信息流并不可靠。此外，最大层权重并不总是与最佳层性能相关（第 V-A 节）。
•
我们观察到模型比较之间的结果不显着，这可能导致对排名的不可靠解释。然后，我们建议与我们的基线数字进行比较时进行统计测试。配方将被发布（第 VI 节）。

II 相关工作

已经提出了用于评估不同语音方面的 SSL 模型的多个基准。ZeroSpeech 系列[26, 43]专注于使用基于语言驱动的 ABX 指标对不同级别的内容信息（从语音、词汇到语义）进行内在评估。SLUE 系列[29, 30] 对 SSL 模型的口语理解 (SLU) 能力（如命名实体识别、情感分析和口语问答）进行基准测试。 [44]提出了评估副语言信息的基准，包括掩蔽语音检测和构音障碍分类。除了上述基准之外，人们还努力在统一的基准中评估语音的各个方面。[45]提出通过对整个 SSL 模型进行微调，用英语的 SV、ER 和 SLU 任务对 SSL 模型进行基准测试。LeBenchmark [27, 28] 为法语设置了多任务 SSL 基准。FLEURS [46] 和 XTREME-S [47] 将多任务评估框架扩展到多语言环境。

与这些努力相比，SUPERB涵盖了语音处理更广泛的方面，包括内容（ASR）、语义（ST）、说话者（SV）、韵律（ER）、去噪（SE）、转换（VC）和生成（SS）。最初的 SUPERB [34] 基准测试解决了 10 个判别任务，后续的 SUPERB-SG [35] 引入了 5 个用于语义和生成能力的附加任务。这 15 项任务定义了 SUPERB 的公共基准测试集。SUPERB 挑战[48] 为部分任务引入了隐藏基准集的概念，以防止在公共集上过度拟合 SSL 开发。隐藏集的语料库是私人记录的，参与者将模型提交给隐藏集委员会进行评估。ML-SUPERB [49] 将框架扩展为涵盖多语言环境中的 143 种语言，其中包括作为初始步骤的 ASR 和语言识别 (LID)。在 SUPERB [34] 和 SUPERB-SG [35] 中，我们给出了标准化任务设计和有限模型上的评估结果，但没有对基准采用进行详细的分析和建议。我们将评估扩大到更新的 SSL 模型，并进行分析以了解这项工作中的最佳实践。

III 语音处理通用性能基准

本节介绍我们用于跨众多任务评估语音基础模型的统一框架，然后介绍 SUPERB 选择用于基准测试的任务。

III-A 统一框架设计

在 SUPERB 中，我们的目标是公平地评估语音基础模型的任务泛化性。这需要定义一个标准接口来评估并维护所有模型下游训练管道的一致性。这种方法确保下游任务的改进反映了基础模型本身的增强，而与不同的下游微调协议无关。

为了说明我们的统一框架，我们首先定义符号。给定具有 $S$ 样本的输入波形： $\bm{x}=x_{1},...,x_{S}\in\mathbb{R}$ ，语音基础模型将其处理为 $L$ 隐藏状态层： $\bm{h}^{l}=\bm{h}^{l}_{1},...,\bm{h}^{l}_{T}\in\mathbb{R}^{d}$ ，其中 $1\leq l\leq L\in\mathbb{R}$ 、 $T<S$ 和 $d\in\mathbb{R}$ 是隐藏状态的维度。很自然地假设 $d$ 在所有层中都是一致的，因为文献中的大多数语音基础模型都采用跨层的相同维度。

与传统的评估协议[8, 9]提取冻结的最后一层 $\bm{h}^{L}$ 作为下游任务的表示相比，我们考虑了所有层 $\bm{h}^{1},...,\bm{h}^{L}$ 隐藏状态作为单个冻结表示并评估其在各种语音处理任务上的质量。设计选择是由 NLP 中 BERT [33] 不同层的不同类型信息驱动的。仅提取最后一层可能会忽略基础模型解决需要早期层信息的任务的能力。因此，我们将多层隐藏状态 $\bm{h}^{1},...,\bm{h}^{L}$ 定义为语音基础模型的标准接口。任何将表示形式提取为这种形式的模型都可以被视为我们的评估框架中的候选基础模型。

为了利用所有层来完成各种下游任务，我们采用可学习的加权和方法[50]将所有表示层减少为单个表示 $\bm{\tilde{h}}$ ：

\bm{\tilde{h}}=\bm{\tilde{h}}_{1},...,\bm{\tilde{h}}_{T}

(1)

\bm{\tilde{h}}_{t}=\sum_{l=1}^{L}\alpha^{l}\cdot\bm{h}^{l}_{t}

(2)

\sum_{l=1}^{L}\alpha^{l}=1

(3)

其中 $1\leq t\leq T$ 、 $\bm{\tilde{h}}_{t}\in\mathbb{R}^{d}$ 和 $\alpha^{l}\geq 0$ 。每层 $\alpha^{1},...,\alpha^{L}$ 的权重在本文中被称为layer-weights，它是一个有效的概率分布。可学习的加权和被视为下游模型的一部分。因此，下游模型将 $\bm{h}^{1},...,\bm{h}^{L}$ 作为输入特征，使用一组特定于任务的可训练权重 $\alpha^{1},...,\alpha^{L}$ 对其进行简化，并将简化后的表示 $\bm{\tilde{h}}$ 输入到特定于任务的模型。请注意，层权重是特定于任务的。也就是说，有一组 ASR 的可学习权重和另一组 SV 的可学习权重。层权重是与下游 ASR 或 SV 模型通过梯度下降联合学习的。特定于任务的层权重的设计源于我们的假设，即不同的任务可能有利于不同的表示层，这将在 V-B1 节中得到验证。

在我们的下游训练过程中，语音基础模型被冻结，仅优化层权重和下游模型参数。与[6,15,17]中微调整个基础模型的另一种常见评估协议相比，我们的设计选择主要是由于实际原因：计算成本。按照 Fairseq [51] 中的官方配方进行微调 wav2vec 2.0 Large 需要大约 4 $\sim$ 8 个 GPU，这对于学术界的研究人员来说成本高昂。SUPERB 基准测试的广泛任务覆盖范围加剧了这种情况，因为很少有研究人员能够负担得起为每个任务使用 8 个 GPU 来调整 15 个任务，而这种计算障碍将不可避免地阻碍基准测试的采用，这本质上与我们标准化基础模型评估的动机相矛盾。实际上，我们的方案只需要一个 GPU 即可实现合理的批量大小（即 32），即使对于我们考虑的所有任务的大型模型也是如此。

另一个需要考虑的重要因素是语音基础模型的来源。原则上，SUPERB 不会对用于导出语音基础模型的方法施加限制。例如，监督[52]、半监督[53]和自监督学习[15, 17]都是可能的方法。然而，现有的监督和半监督模型是特定于任务的，它们的内部表示不容易转移到看不见的任务[54]。因此，我们的重点是探索和规范使用语音 SSL 模型对语音基础模型的评估。

III-B 精湛的任务设计

Task	Adopted Corpus	Train					Valid					Test					Non-SSLSOTA
		Num	Avg	Max	Min	Hour	Num	Avg	Max	Min	Hour	Num	Avg	Max	Min	Hour
PR	LibriSpeech 100 hour [36]	28539	12.69	24.52	1.41	100.59	2703	7.18	32.65	1.45	5.39	2620	7.42	34.96	1.28	5.40	-
SID	VoxCeleb1 [55]	138361	8.28	144.92	3.96	318.41	6904	7.92	74.96	3.96	15.18	8251	7.86	76.44	3.96	18.01	[56]
ER	IEMOCAP Fold 1 [57]	3556	4.52	34.14	0.58	4.47	890	4.44	31.91	0.73	1.10	1085	4.73	29.13	0.84	1.43	[58]
	IEMOCAP Fold 2 [57]	3606	4.51	34.14	0.58	4.52	902	4.55	20.29	0.73	1.14	1023	4.68	22.52	0.73	1.33
	IEMOCAP Fold 3 [57]	3504	4.61	34.14	0.73	4.49	876	4.43	29.05	0.76	1.08	1151	4.44	19.84	0.58	1.42
	IEMOCAP Fold 4 [57]	3600	4.58	34.14	0.58	4.58	900	4.58	31.91	0.76	1.14	1031	4.43	24.36	0.76	1.27
	IEMOCAP Fold 5 [57]	3432	4.56	24.36	0.58	4.34	858	4.62	29.13	0.73	1.10	1241	4.48	34.14	0.78	1.55
KS	Speech Commands [59] v1.0	51094	0.99	95.18	0.37	14.07	6804	1.04	95.18	0.38	1.97	3081	1.0	1.0	1.0	0.86	[60]
IC	Fluent Speech Commands [61]	23132	2.29	13.23	0.65	14.72	3118	2.25	8.36	0.94	1.95	3793	2.45	5.29	0.68	2.58	[61]
ASR	LibriSpeech 100 hour [36]	28539	12.69	24.52	1.41	100.59	2703	7.18	32.65	1.45	5.39	2620	7.42	34.96	1.28	5.40	[62]
ASV	VoxCeleb1 [55]	148642	8.24	144.92	3.96	340.39	-	-	-	-	-	4874	8.28	69.04	3.96	11.20	[63]
SD	Libri2Mix (noisy, max) [64]	13900	14.59	24.52	3.22	56.37	3000	9.12	28.57	3.08	7.60	3000	8.41	21.25	3.09	7.01	-
QbE	Quesst14 (English) [65]	2438	6.72	33.47	3.01	4.55	138	1.47	6.19	1.02	0.06	138	1.44	2.79	1.01	0.06	[66]
SF	Audio SNIPS [67, 68]	104672	2.85	10.71	0.57	82.93	2800	2.94	8.59	0.91	2.29	2800	2.89	7.29	0.99	2.25	[69]
OOD-ASR	Common Voice 7.0 (es) [70]	13756	5.61	10.80	1.78	21.44	733	5.84	10.39	2.28	1.19	366	6.12	11.42	2.40	0.62	[52]
	Common Voice 7.0 (zh) [70]	21266	5.25	19.56	1.49	31.04	9334	5.56	10.99	1.70	14.41	9338	5.91	11.74	1.73	15.32
	Common Voice 7.0 (ar) [70]	27168	4.03	22.03	1.92	30.38	10144	4.34	10.51	1.40	12.23	10271	4.37	10.44	1.56	12.46
	SBCSAE (spon) [71]	30339	1.35	14.83	0.10	11.42	4646	1.23	13.03	0.10	1.59	5010	1.55	12.78	0.15	2.15
ST	CoVoST2 (En to De) [72]	288187	5.34	24.67	0.98	427.72	15480	6.05	30.26	1.54	26.02	15507	5.71	142.54	1.10	24.61	[73]
VC	VCC2020 Task1 (TEF1) [74]	60	3.16	4.26	1.29	0.05	-	-	-	-	-	100	2.99	5.05	1.34	0.08	[75]
	VCC2020 Task1 (TEF2) [74]	60	3.62	5.80	1.76	0.06
	VCC2020 Task1 (TEM1) [74]	60	4.29	6.21	1.63	0.07
	VCC2020 Task1 (TEM2) [74]	60	3.75	5.49	1.79	0.06
SE	Voicebank-DEMAND [76]	10802	2.92	15.11	1.09	8.76	770	2.96	11.78	1.36	0.63	824	2.51	9.77	1.24	0.58	[77]
SS	Libri2Mix (clean, min) [64]	13900	11.21	16.60	3.0	43.27	3000	5.42	17.47	3.01	4.51	3000	5.02	13.99	3.0	4.19	[78]

SUPERB 的设计遵循以下原则：

1.
任务通用性：SUPERB 标准化了 15 种不同语音处理任务中 SSL 模型的比较，涵盖内容、说话者特征、韵律、语义和生成。与之前的基准测试[26, 27]不同，SUPERB独特地强调任务泛化性，使其成为最全面覆盖多样化语音处理任务的基准测试¹⁰¹⁰10 在 SUPERB 中，我们评估了 SSL 表示在一系列新任务上的可用性。这些任务及其注释在 SSL 预训练阶段是看不到的。广泛而多样的任务覆盖范围确保我们得出关于表示的任务泛化性的可靠结论。.
2.
社区标准：SUPERB 纳入了语音社区的任务，并遵守传统的评估协议，以符合共同的研究兴趣。与之前关注线性可分性[8, 9]或内在属性[26]（例如ABX分数）的方法不同，我们关注SSL模型在真实环境中的直接可用性应用程序，连接到表征学习之外的研究。
3.
开放获取：SUPERB 是开源的，所有材料均可公开获取。我们选择具有开放许可证的语料库并发布我们的评估代码库，包括所有数据预处理步骤，以确保可重复性。

为了满足这些原则，我们根据 Interspeech 2020 上报告的最热门任务选择了各种语音任务¹¹¹¹11http://www.interspeech2020.org/Program/Technical_Program/。包括覆盖5个维度的15个任务：

1.
内容：音素识别 (PR)、自动语音识别 (ASR)、域外 ASR (OOD-ASR)、关键字识别 (KS)、示例查询 (QbE)
2.
说话人：说话人识别 (SID)、说话人验证 (SV)、说话人二值化 (SD)
3.
Prosody：情绪识别（ER）
4.
语义：意图分类 (IC)、槽位填充 (SF)、语音翻译 (ST)
5.
一代：语音转换（VC）、源分离（SS）和语音增强（SE）

下面，我们详细描述每个任务设计，并在表I中列出每个语料库的数据统计和非SSL基线方法。请注意，我们不会与微调 SSL 编码器的结果进行比较，因为该方法通常会产生更好的结果，但计算成本较高，并且在我们的框架中没有考虑。有两个任务没有先前的工作：PR 和 SD。我们在以下任务部分中说明了原因。在每个任务中，我们描述任务的目标、我们选择的实现语料库以及我们遵循的评估协议，包括数据分割和评估指标。此外，我们还说明了如何利用语音 SSL 模型来解决任务，涉及下游模型架构和优化损失。

III-B1 音素识别（PR）

•
任务描述： PR 将单词转录为最小的口头单位：音素。我们在 PR 任务中包含对齐建模，以避免潜在的不准确的强制对齐。在下游模型训练过程中，每个单词的标记数据是没有边界信息的原始音素序列，下游模型需要依靠基础模型表示来学习对齐。
•
数据和指标：音素识别通常在 TIMIT [79] 数据集上进行。然而，由于 TIMIT 不是免费可用的，这违反了我们的开放访问原则，因此我们选择 LibriSpeech 来完成此任务，因此之前的结果没有可比性。LibriSpeech [36] train-clean-100/dev-clean/test-clean 子集用于训练/验证/测试。音素抄录取自官方词典文件¹²¹²12https://www.openslr.org/11/。g2p-model-5 和 Kaldi librispeech s5¹³¹³13https://github.com/kaldi-asr/kaldi/tree/master/egs/librispeech/s5配方被使用当遇到词汇外 (OOV) 单词时。评估指标是电话错误率（PER）。
•
下游型号：我们训练一个逐帧 2 层线性模型作为基础模型表示之上的下游模型。下游模型通过 CTC [80] 损失进行优化。

III-B2 自动语音识别 (ASR)

•
任务描述： ASR 将话语直接转录成单词。与 PR 相比，ASR 还涉及将口语单元转换为写作单元。 PR 分析了语音建模方面的改进，而 ASR 则反映了在更真实的场景中改进的重要性。
•
数据和指标： LibriSpeech train-clean-100/dev-clean/test-clean 子集用于训练/验证/测试。评估指标是单词错误率（WER）。
•
下游型号：采用普通 2 层 1024 单元 BLSTM 作为下游模型，并通过 CTC 损失对特征进行优化。 SpecAugment [81] 也应用于表示以避免过度拟合。

III-B3 域外 ASR (OOD-ASR)

•
任务描述：普通 ASR 任务仅检查基础模型在阅读英语语料库 LibriSpeech [36] 上的能力，不涉及口语风格的变化。此外，大多数 SSL 模型都使用 LibriSpeech 作为预训练数据。因此，PR 和 ASR 是域内下游任务。我们考虑跨语言和说话者风格的域外场景。
•
数据和指标：OOD-ASR 任务分为跨语言和自发语音任务。对于跨语言任务，我们选择 Common Voice 7.0 [70] 中的墨西哥西班牙语 (es)、普通话 (zh) 和阿拉伯语 (ar) 子集。对于自发语音任务 (spon)，我们使用圣巴巴拉美国英语口语语料库 (SBCSAE) [71]，包含 60 个不同主题的对话¹⁴¹⁴14The data pre-processing follows https://github.com/vectominist/SBCSAE-preprocess 。采用每个语料库的标准分割。我们使用 WER 作为衡量标准，但普通话则使用字符错误率 (CER)。对 4 个子任务的错误率进行平均，以提供总体 OOD-ASR 分数。
•
下游型号：OOD-ASR任务与ASR任务共享相同的下游模型，包括模型架构和优化损失。

III-B4 关键词识别 (KS)

•
任务描述：与上面列出的内容识别任务相比，内容检测任务涉及检测预先注册的口语术语。KS系统检测预先注册的关键词并忽略未注册的单词。例如，系统应该通过“Hey Siri”语音命令唤醒，并在听到不相关内容时保持沉默。我们通过将输入单词分类为预定义的关键字类和未注册单词的未知类来完成此任务。
•
数据和指标：使用语音命令数据集 v1.0 [59]。该数据集由十类关键字、一类沉默类和一类未知类组成。采用语料库的标准分割。评估指标是准确性（ACC）。
•
下游型号：使用均值池化后的简单线性模型作为下游模型，并使用交叉熵损失进行训练。

III-B5 口语检测示例查询 (QbE)

•
任务描述：QbE 是另一个内容检测任务。它通过二进制区分查询是否出现在每个文档中来检测音频数据库（长文档）中的口语术语（短查询）。实际上，给定一个语音查询，QbE 系统会为每个语音文档分配一个连续的匹配分数。
•
数据和指标：英语子集¹⁵¹⁵15原始语料库是多语言的。 QUESST 2014 [65] 挑战被采纳。该语料库由三部分组成：口语文档、开发口语查询和测试口语查询。开发和测试查询共享同一组语音文档。每个查询都由包含相应口语术语的文档的 ID 来标记。评估指标为最大术语权重值 (MTWV)¹⁶¹⁶16https://www.nist.gov/system/files/documents/itl/iad/mig/OpenKWS13-EvalPlan.pdf。
•
下游型号：我们遵循 GTTS-EHU 在 MediaEval 2014 [82] 上为 QUESST 提出的系统，但用 SSL 表示替换传统的监督音素后验图（PPG）。具体来说，我们运行动态时间规整[83] (DTW)来获得每个查询-文档对的相似度得分。属于同一查询的分数被进一步标准化。DTW 的超参数包括用于测量查询-文档相似性的距离函数，以及我们从语音基础模型中提取的层。在开发集（查询）上找到的最佳距离函数和图层 ID 对用于报告测试集（查询）上的性能。

III-B6 说话人识别 (SID)

•
任务描述：SID 将每个单词的说话者身份识别为多类分类，其中说话者在训练和测试中都位于相同的预定义集中。
•
数据和指标：广泛使用的 VoxCeleb1 [55] 是按照分类任务的标准分割而采用的。评估指标是准确性（ACC）。
•
下游型号：使用简单的线性头和均值池作为下游模型，并使用交叉熵损失进行训练。

III-B7 说话人验证 (SV)

•
任务描述：SV 涉及确定两个话语（注册和测试）的说话者是否相同，充当二元分类任务。与 SID 不同，SV 提出了更大的挑战，因为测试集中的说话人可能不会出现在训练集中。这方面使 SV 与现实世界的说话者身份验证系统更加紧密地结合起来，现实世界中的说话者身份验证系统经常会遇到系统以前未遇到过的说话者。
•
数据和指标：VoxCeleb1 [55] 训练用于没有 VoxCeleb2 数据和 MUSAN [84] 噪声增强。采用标准测试集和测试对。我们使用的评估指标是等错误率（EER）。
•
下游型号：我们采用著名的x向量[85]作为下游模型。该模型在 VoxCeleb1 上使用 AMSoftmax 损失 [86] 进行训练，遵循 [55] 中描述的超参数。在训练分类模型后，学习到的隐藏状态将用作说话人嵌入。我们计算每对注册和测试话语的说话者嵌入之间的余弦相似度，以产生匹配分数。最后，在计算EER时确定二元决策阈值。

III-B8 说话人分类 (SD)

•
任务描述：SD 预测谁在何时发言。与 SID 和 SV 相比，SD 需要对话中每个不同时间戳的说话者信息。此外，多个发言者可以同时发言。因此，语音基础模型必须为每个时间戳编码丰富的说话人特征，并且应该能够表示信号的混合。
•
数据和指标：我们从 LibriMix 中策划说话者二值化标签，因此之前没有可用的结果。LibriMix [64] 源自 LibriSpeech，其中 train-clean-100/dev-clean/test-clean 用于生成用于训练/验证/测试的混合物。我们使用 Libri2Mix 子集。我们采用 100 小时的 clean-train、clean-dev 和 clean-test 分别生成训练、开发和测试混合物。砰！ [87] 噪音被增强到话语中。时间编码的说话者标签是使用 Kaldi LibriSpeech ASR 模型的对齐方式生成的。评估指标是二值化错误率（DER）。
•
下游型号：我们采用端到端训练方案，将训练不变（PIT）损失 [88] 转换为 SD，而不是使用基于聚类的方法。我们利用单层 512 单元 LSTM 作为下游模型。

III-B9 情绪识别（ER）

•
任务描述：ER 识别受影响言语的情绪类别。该任务检查语音基础模型编码韵律信息的能力。
•
数据和指标：采用 IEMOCAP [57]，我们遵循传统的评估协议：我们放弃不平衡的情绪类别，留下具有相似数量数据点的最后四个类别（中性、快乐、悲伤、愤怒）并对标准分割的五倍进行交叉验证。评估指标是准确性（ACC）。
•
下游型号：使用简单的线性头和均值池作为下游模型，并使用交叉熵损失进行训练。

III-B10 意图分类 (IC)

•
任务描述：作为口语理解 (SLU) 的组成部分，IC 涉及识别口头命令并将其分类为预定义的意图类别。与转录话语然后解释文本意图的传统方法[67]不同，我们的方法是端到端的，旨在评估基础模型直接理解语义的能力。
•
数据和指标：我们使用 Fluent Speech Commands [89] 数据集，其中每个话语都标记有三种意图类型：动作、对象和位置。采用标准分割。评估指标是准确性（ACC）。请注意，我们仅将所有三种意图类型的完全匹配视为正确的预测。
•
下游型号：使用简单的线性头和均值池作为下游模型，并使用交叉熵损失进行训练。

III-B11 槽填充 (SF)

•
任务描述：在 SLU 系统中，已识别的意图与必须从用户的查询[67]中提取的实体列表相关联。例如，在查询“Find me a Flight from Paris to New York”中，SLU 系统将意图识别为 searchFlight 后，需要提取巴黎作为来源纽约作为搜索的目的地。在此示例中，出发地和目的地是时隙类型，而巴黎和纽约是相应的时隙值。然后，SF 要求模型以端到端的方式从输入话语中导出所有槽类型及其相应的槽值。
•
数据和指标：采用音频SNIPS[90]，为SNIPS[67]合成多说话人语音。遵循 SNIPS 中的标准拆分¹⁷¹⁷17原始SNIPS仅定义了文本的标准分割，没有语音数据。 AudioSNIPS 为每个文本合成了 16 个说话者的语音。防止训练/验证/测试分割之间的说话者重叠非常重要。因此，应决定进一步的扬声器划分。，进一步选择美国口音的人进行训练，其他人进行验证/测试。评估指标包括槽位类型F1分数和槽位值CER[91]。前者评估预测槽类型的正确性，而不考虑槽值；后者计算预测槽值和真实槽值之间的 CER。
•
下游型号：我们将槽类型表示为特殊标记，以将槽值包装在转录中。例如，"从巴黎飞往纽约" Transformer 为 "从 <origin> 台北 </origin> 飞往 <destination> 纽约 </destination>" 。特殊标记位于预定义的集合中，因此我们可以将它们视为有限的新字符。然后 SF 被重新表述为 ASR 问题。下游模型与我们的 ASR 任务中的相同，除了将槽类型编码为转录的预处理和根据假设解码槽类型和槽值的后处理。SpecAugment [81] 也应用于表示以避免过度拟合。

III-B12 语音翻译（ST）

•
任务描述：ST 涉及将源语言中的声学语音信号直接翻译成目标语言中的单词。我们用它来评估语音基础模型的语义能力。
•
数据和指标：我们使用 CoVoST2 En $\rightarrow$ De [72] 数据集及其官方训练、验证和测试分割，同时删除所有包含“REMOVE”的样本。对于文本，我们保留原始大小写，标准化标点符号，并构建具有 100% 训练集覆盖率的字符词汇表。我们使用 sacreBLEU [92] 报告区分大小写的去标记化 BLEU。
•
下游型号：我们的下游模型是一个编码器-解码器架构，具有 3 层 Transformer，每层都有 512 的隐藏维度。卷积子采样器用于在将输入馈送到编码器之前减少输入的序列长度。我们使用 0.1 的概率通过标签平滑来训练我们的模型。使用 20 的光束大小进行推理。

III-B13 语音转换（VC）

•
任务描述：VC 是一项生成任务，涉及转换说话风格（说话者、口音、情感等），同时保留语言内容。在此任务中，我们考虑在任意对一 (A2O) 设置下转换说话者特征。A2O VC 旨在将任何看不见的说话者的语音转换为预定义的目标说话者的语音。
•
数据和指标：我们遵循 VCC2020 [74] 中的语内 VC 任务。该数据集由 4 个英语源说话者和 4 个目标说话者组成。由于我们考虑了 A2O 设置，因此我们在下面将讨论简化为单个目标发言者，并对 4 个目标发言者中的每一个重复执行该过程。给定一个目标说话者，有 60 个用于训练的话语，并且不使用任何验证。训练结束后，使用来自每个未见过的源说话者的 25 个测试话语来测试转换。总共测试了 100 次转换。每个转换的文章都有一个参考文章，我们使用现成的 ASR 和 ASV 模型中的梅尔倒谱失真 (MCD)、单词错误率 (WER) 和自动说话人验证接受率 (ASV-acc) 作为评估指标。这些客观指标与主观评价之间的相关性在[93]中得到了证明。对 4 个目标扬声器重复上述过程后，将测试所有 16 个源-目标扬声器对。
•
下游型号：我们采用[93]中所示的识别合成框架，其中识别器应提取语言内容，合成器根据识别的内容生成目标说话人风格的语音。对于识别器，使用SSL模型代替传统的PPG[94]。对于合成器，我们训练一个 Tacotron2 [95] 将 SSL 特征映射到每个目标说话者的 FBANK。总共训练了四个合成器。目标说话人特征由合成器直接建模，无需目标说话人嵌入。最后，合成的 FBANK 由 Hifi-GAN [96] 声码器解码为波形。

III-B14 语音分离 (SS)

•
任务描述：SS 是一项将目标语音与背景干扰分离的生成任务[97]。这是多说话者场景的重要一步。该任务用于评估语音基础模型处理声学信号混合以及分离不同说话者的人类语音的能力。
•
数据和指标：采用Libri2Mix [64]，它是从LibriSpeech模拟的数据集。每个样本都是两个扬声器的混合物。我们使用数据集的 16kHz min-clean 版本。我们使用尺度不变信号失真比改进（SI-SDRi）作为评估指标。
•
下游型号：我们使用 3 层 BLSTM 作为维度为 896 的下游模型来预测每个说话人的短时傅里叶变换（STFT）掩模。将掩码应用于输入（混合）单词的 STFT，以构建目标说话者的预测 STFT。使用短时傅里叶逆变换 (iSTFT) 将预测的 STFT 变换回时域。排列不变训练 (PIT) [98] 用于优化预测掩模与理想非负相敏掩模 (INPSM) [99, 100] 之间的均方误差>。由于步长限制和计算成本，我们选择频域方法而不是基于时域的方法。

III-B15 语音增强 (SE)

•
任务描述：SE 是一项从失真语音信号中去除背景噪声的生成任务，旨在提高信号的感知质量和可懂度。
•
数据和指标：我们按照标准分割使用 Voicebank-DEMAND [76]。我们的评估指标是语音质量感知评估 (PESQ) 和短时客观清晰度 (STOI)。
•
下游型号：我们遵循[100]中基于掩码的语音增强管道。采用与 SS 任务类似的 3 层 BLSTM 模型作为预测头，并进行训练以预测干净信号的频谱掩模。使用短时傅里叶逆变换 (iSTFT) 将预测变换回时域。预测掩模和 INPSM 之间的均方误差用作目标。

III-C 致谢

我们的方法不涉及开发新的 SSL 方法或新数据集。相反，我们利用开源社区的广泛资源，包括 SSL 预训练代码库、预训练 SSL 模型和带注释的数据集。我们的主要贡献是：

1.
在各种实际应用程序中将 SSL 开发与传统的非 SSL 方法连接起来。
2.
揭示领先 SSL 模型强大的任务通用性。
3.
提供综合评估结果，规范众多语音SSL模型的评估。
4.
开源我们的评估代码库，以简化所有任务的基线复制。

鉴于我们对现有资源的依赖，我们建议研究人员继续使用单独的数据集，并将我们的设置视为评估语音基础模型的一个特定用例。

Model	#Params	Corpus	Implementation (GitHub)	Use officialcheckpoint	Communitysubmission	Tasks underperformingFBANK
FBANK	-	-	pytorch/audio [101]	-	-	-
PASE+ [16]	7.83M	LS 50 hr	santi-pdp/pase	✓	×	ASR, SF, SV, VC
APC [8]	4.11M	LS 360 hr	iamyuanchung/Autoregressive-Predictive-CodingAlexander-H-Liu/NPC	×	×	SD, SS
VQ-APC [102]	4.63M	LS 360 hr		×	×	SF, SD, SS
NPC [103]	19.38M	LS 360 hr	Alexander-H-Liu/NPC	×	×	SE, SS
Mockingjay [9]	85.12M	LS 360 hr	s3prl/s3prl	✓	×	OOD-ASR, SF, QbE, SV, SD, SE
TERA [10]	21.33M	LS 960 hr		✓	×	SF, QbE, SV, SE
Audio Albert [104]	7.15M	LS 960 hr		✓	×	QbE
DistilHuBERT [105]	27.03M	LS 960 hr		✓	✓	SS
DeCoAR [106]	67.25M	LS 960 hr	awslabs/speech-representations	✓	×	-
DeCoAR 2.0 [11]	89.84M	LS 960 hr	awslabs/speech-representations	✓	×	SE, SS
Modified CPC [107]	1.84M	LL 60k hr	facebookresearch/CPC_audio	✓	×	SV, SD
data2vec-aqc Base [108]	93.84M	LS 960 hr	Speech-Lab-IITM/data2vec-aqc	✓	✓	-
CCC-wav2vec 2.0 Base [109]	95.04M	LS 960 hr	Speech-Lab-IITM/CCC-wav2vec-2.0	✓	✓	-
FaST-VGS+ [110]	217.23M	LS 960 hrSC 742 hr	jasonppy/FaST-VGS-Family	✓	✓	-
LightHuBERT Stage1 [111]	94.38M	LS 960 hr	mechanicalsea/lighthubert	✓	✓	-
LightHuBERT Small [111]	26.88M	LS 960 hr	mechanicalsea/lighthubert	✓	✓	SE
CoBERT Base [112]	94.35M	LS 960 hr	mct10/CoBERT	✓	✓	SE, SS
wav2vec [13]	32.54M	LS 960 hr	pytorch/fairseq [51]	✓	×	SE
vq-wav2vec [14]	32.15M	LS 960 hr		✓	×	SV, SE, SS
wav2vec 2.0 Base [15]	95.04M	LS 960 hr		✓	×	-
wav2vec 2.0 Large [15]	317.38M	LL 60k hr		✓	×	SE
HuBERT Base [17]	94.68M	LS 960 hr		✓	×	-
HuBERT Large [17]	316.61M	LL 60k hr		✓	×	-
Data2vec Base [25]	93.16M	LS 960 hr		✓	✓	SE, SS
Data2vec Large [25]	313.28M	LL 60k hr		✓	✓	-
DPHuBERT [113]	23.59M	LS 960hr	pyf98/DPHuBERT	✓	✓	-
DPWavLM [113]	23.59M	LS 960hr	pyf98/DPHuBERT	✓	✓	SS
Unispeech SAT Base [114]	94.37M	LS 960 hr	microsoft/UniSpeech	✓	×	-
Unispeech SAT Base+ [114]	94.37M	LVG 94k hr		✓	×	-
Unispeech SAT Large [114]	315.43M	LVG 94k hr		✓	×	-
WavLM Base [18]	94.38M	LS 960 hr		✓	✓	-
WavLM Base+ [18]	94.38M	LVG 94k hr		✓	✓	-
WavLM Large [18]	315.45M	LVG 94k hr		✓	✓	-

IV 主要结果

为了利用语音 SSL 模型，如果没有特别提及，我们将遵循官方发布的模型定义、预训练权重和模型前向管道。如果预训练的权重不可用，我们将使用已发布的代码库按照默认配置文件预训练模型。我们在表II中列出了我们在这项工作中探索的所有 33 个模型。从公共排行榜提交获得的结果会在社区提交列中突出显示。

请注意，显式搜索不同 SSL 模型的合适学习率非常重要，而不是直接使用我们发布的代码库中的默认学习率，因为不同的模型有不同的学习率，如表 III 所示。在接下来的实验中，我们以对数尺度从 1e-1 到 1e-7 进行搜索。

Models	SID (acc)				IC (acc)
	1e-1	1e-2	1e-3	1e-4^$\ast$	1e-3	1e-4^$\ast$
wav2vec 2.0 Base	NaN	74.28	75.18	66.72	92.12	92.35
wav2vec 2.0 Large	NaN	84.38	86.15	82.71	95.28	93.22
HuBERT Base	81.42	81.01	70.09	67.37	98.34	97.81
HuBERT Large	NaN	86.94	90.33	86.94	98.63	98.76

IV-A 最后一层特征与可学习的加权和

Models	PR	KS	SID	IC	ER
	per $\downarrow$	acc $\uparrow$	acc $\uparrow$	acc $\uparrow$	acc $\uparrow$
PASE+ [16]	58.8858.87	82.3782.54	35.8437.99	30.2929.82	57.6457.86
APC [8]	41.8541.98	91.0491.01	59.7960.42	74.6474.69	58.8459.33
VQ-APC [102]	42.8641.08	90.5291.11	49.5760.15	70.5274.48	58.3159.66
TERA [10]	47.5349.17	88.0989.48	58.6757.57	48.8058.42	54.7656.27
wav2vec [13]	32.3931.58	94.0995.59	44.8856.56	78.9184.92	58.1759.79
vq-wav2vec [14]	53.4933.48	92.2893.38	39.0438.80	59.485.68	55.8958.24
wav2vec 2.0 Base [15]	28.375.74	92.3196.23	45.6275.18	58.3492.35	56.9363.43
HuBERT Base [17]	6.855.41	95.9896.30	64.8481.42	95.9498.34	62.9464.92

我们验证了我们的可学习加权和评估协议相对于传统层层冻结表示的优势在众多任务和 SSL 模型中是一致的，如表 IV 所示。请注意，由于计算成本的原因，我们不会对表 II 中的所有 SSL 模型进行此比较。表IV显示，在大多数情况下，加权和优于最后一层表示，要么同样好，要么明显更好。相反，大多数突出显示的失败案例只有细微的差别。

IV-B 完整基准测试结果

A Large-Scale Evaluation of Speech Foundation Models (2)

我们在图2中展示了遵循加权和协议的主要结果，并在本节中讨论了几个发现。图2中颜色越深表明性能越好。请注意，我们的评估过程涉及每个任务的固定下游模型。[115]指出使用不同的下游模型可能会导致语音基础模型之间的排名不同。因此，我们目前的结果仅提供特定环境下模型之间的比较。当模型之间的性能太接近时，我们建议不要对模型进行排名，并在更多的语料库和场景上对其进行评估（例如第VII节中的少样本学习）以验证差异。按照第 VI 节中的说明进行统计测试有助于了解差异和排名是否有意义。更彻底的修复方法是采用多探针协议¹⁸¹⁸18 多探针协议通过选择最佳结果或平均所有结果来组合来自多个下游模型的结果。在 [115] 中或对每个任务仅使用线性预测头微调整个 SSL 模型。然而，这两种选择在计算上都是不可行的。我们计划在未来的工作中结合少样本学习环境来探索这些方法。样本少，学习收敛速度更快，并减少了训练时间。此外，少样本基准测试放大了性能差异，从而揭示了基础模型的真实功能，如第VII节所示。

IV-B1 SSL 在任务泛化性方面优于基线表示 (FBANK)

我们使用FBANK¹⁹¹⁹19我们使用术语“FBANK”来指代基本梅尔频率滤波器组；在我们的工作中，我们使用了 80 个梅尔频率滤波器，通过 FFT 实现，窗口大小为 25 ms，跳跃大小为 10 ms。我们取滤波器输出的对数能量。由于其在大多数语音处理系统中广泛采用，因此作为评估任务泛化性的基线。根据图2，所有模型在大多数任务上都优于 FBANK。我们将一些异常解析到表II的最后一列中，以显示每个 SSL 模型的失败案例。33 个模型中大约有一半在所有任务上都优于 FBANK。另一半模型在全部 15 项任务中仅在大约 1 $\sim$ 3 项任务上表现不佳。最常见的失败任务是 SE 和 SS，涉及 SSL 模型的鲁棒性（对噪声和混合语音）和生成能力。

IV-B2 领先的 SSL 模型显示出强大的任务泛化性

在图2中，底部的领先 SSL 模型（即 wav2vec 2.0、HuBERT、WavLM）在所有任务上均显着优于基线 FBANK（第一行）。此外，通过与不使用 SSL 技术的传统领先方法（最后一行）进行比较，我们观察到 WavLM Large 在众多任务中取得了接近甚至更好的结果，包括 KS、IC、SID、ER、ASR、SF、SV 和 ST ，只需使用带有冻结 SSL 编码器的轻量级下游模型。结果表明我们的加权和协议是有效的，并且领先的 SSL 模型表现出很强的任务通用性。

IV-B3 SE 和 SS 上的性能差距

在图2中，我们观察到没有SSL模型能够接近SE和SS顶级系统的性能，即CMGAN [77]和TDANet [78 ]。通常，这些生成任务的竞争系统使用步幅小于 10 毫秒的特征。 [116] 报告了使用较小步幅时的持续改进。另一方面，具有失真和混合鲁棒性的领先 SSL 模型 WavLM Large 使用 20 ms 的大步幅大小，这可能会导致步幅大小不匹配。总体而言，结果表明开发语音基础模型的未来还有改进的空间。当前的 SSL 模型在理解任务方面表现出色，但在生成任务方面落后于传统方法。

IV-B4 VC 上的领先模型各不相同

Models	PR	SID	VC
	per $\downarrow$	acc $\uparrow$	mcd^$\ast$ $\downarrow$	wer $\downarrow$	asv $\uparrow$
CoBERT Base [112]	3.08	72.66	6.99	7.17	99.50
Data2vec Base [25]	4.69	70.21	7.07	8.00	99.50
WavLM Base [18]	4.84	84.51	7.43	8.35	98.75
HuBERT Base [17]	5.40	81.42	7.47	8.00	98.50
Data2vec Large [25]	2.55	79.24	7.02	8.80	99.50
HuBERT Large [17]	3.54	90.33	7.22	9.00	99.25
WavLM Large [18]	3.09	95.25	7.30	9.95	99.50

令人惊讶的是，WavLM 系列在 VC 任务上并未达到第一名。相反，领先的模型是 CoBERT Base [112] 和 Data2vec Base/Large [25]，它们在 VC 的所有 3 个指标（MCD、WER、ASV）上都显示出有竞争力的结果-acc）。我们将这些模型与表 V 中尺寸相似但稍差的竞争对手 HuBERT 和 WavLM 进行比较。我们使用 MCD 作为主要排序指标，因为它在 [93] 中的自然度和说话者相似度方面与人类感知具有更高的相关性。表 V 显示 VC 领先模型学习了更好的独立于说话者的内容表示⁸，从而与 VC 领域的结果[117, 41, 39, 40] 保持一致。具体来说，他们拥有更高的内容可访问性²⁰²⁰20 我们将可访问性定义为我们通过浅层分类器提取特定类型信息的容易程度。该定义遵循语音 SSL [8, 102, 9] 中的常规作品说话人不变性⁸，如更好的 PER 和较差的说话人准确度所示，这有助于在转换阶段泛化到未见过的源说话人。直观上来说，使用相同的基础模型同时在内容、演讲者和 VC 任务上表现良好似乎是不可能的。然而，我们将在V-B4节中证明它是可行的。

V SUPERB分层分析

在本节中，我们假设不同的层负责不同的任务，并检查它们各自的贡献。

V-A 层权重与层性能不成正比

A Large-Scale Evaluation of Speech Foundation Models (3)

广泛采用通过层权重⁹ [18, 105, 49]来分析每个层对任务的重要性，假设权重与每个层的真实值成正比表现。然而，我们的分析表明层权重并不能提供信息。

有些模型跨层具有不同的数值尺度，这本质上影响了层权重和我们的基础知识实验中的解释²¹²¹21 对于 wav2vec 2.0、HuBERT 和 WavLM 的大型变体，这种现象尤其明显。与其他层相比，这些模型的最后一层特征的数值非常小，并且最后一层的层权重非常大。然而，根据图3和图4，wav2vec 2.0的最后一层不包含有用的信息。因此，我们推断层权重可能共同服务于两个功能：（1）标准化跨层的数值尺度，（2）识别信息层。作为一个重要性分析工具，我们只关心功能（2），因此默认基准测试中的原始层权重不是一个合适的选择。.因此，我们考虑另一种基准测试设置来排除特征数值范围的影响：标准化基准测试。在归一化基准测试中，我们首先通过隐藏大小维度上的层范数对每层特征进行归一化，然后将归一化特征用于基准测试。

wav2vec 2.0 Large 和 HuBERT Large 的结果如图 3 所示。²²²²22切换到标准化基准测试不会影响任务性能，但对于分析层权重更加严格。我们显示了所有层的层权重，而由于逐层基准测试的巨大计算成本，我们只对奇数层进行基准测试。层权重只能粗略地反映 PR 和 SID 上的真实性能，存在很多不一致之处。例如，SID 上的层权重无法找到 wav2vec 2.0 Large 和 HuBERT Large 的最佳层。此外，在 PR 和 SID 上，层权重都无法反映语音基础模型内部平滑的信息变化。

Task	PR	SID	ER	VC	SE
Score	100 - per	acc	acc	-mcd	pesq
$\rho$	0.393	0.494	0.371	-0.693	0.711
p-value	0.031	0.007	0.041	0	0

定量地，我们计算层性能和层权重之间的斯皮尔曼等级相关系数（斯皮尔曼 $\rho$ )[42]。检查 PR、SID、ER、VC 和 SE。表VI显示除SE之外的所有任务的层权重与层性能不成正比。因此，我们建议进行分层单层基准测试，以评估每项任务的每一层的质量。

A Large-Scale Evaluation of Speech Foundation Models (4)

V-B 逐层单层基准测试

在图4中，我们展示了一些代表性模型的单层基准测试结果：wav2vec 2.0 Base/Large、HuBERT Base/Large 和 Data2vec Large。由于巨大的计算成本，我们在代表性任务子集上对奇数层进行基准测试：PR、SID、ER、VC 和 SE。

V-B1 不同的任务有利于不同的层

内部层信息的可访问性²⁰在不同模型中显示出类似的趋势。较低层有利于 SE 任务，这需要操作 STFT 掩模²³²³23考虑 HuBERT Base/Large 和 Data2vec Large 时，结果很明显。对于 wav2vec 2.0 Base/Large，各层之间的 SE 差异不太明显。，而中间层对说话人任务 SID 更有利，其次是以韵律为中心的 ER。最后，越高的层对于内容任务 PR 越有利。因此，没有一个单层表示可以在所有任务上实现有竞争力的训练表现，但通过可学习的加权和来集成所有层来实现目标是可行的。

V-B2 通过单层基准测试突破极限

我们观察到，最佳单层基准测试结果有时优于加权和基准测试结果，其中 SID 上使用 wav2vec 2.0 Base 和 HuBERT Base，ER 上使用 wav2vec 2.0 Large，SE 上使用 wav2vec 2.0 Large 和 HuBERT Large，以及 VC 上的所有模型以 MCD 指标为例。 [118]中也报道了这种现象，它分析了跨层的内容信息。我们的结果表明，清理内部层可能会提高性能，并且这种现象在多个任务中是一致的。然而，由于在单层基准测试中观察到的改进更多地与各个 SSL 模型相关，并且在除 VC 之外的所有模型中并不一致，因此我们仍然使用加权和方法作为默认基准测试协议。此外，加权和协议需要的计算成本要少得多，因为它只需要一次运行。

V-B3 与说话人无关的表示

我们观察到一些 SSL 模型在其最后一层拥有与说话人无关的表示。根据IV-B4节的分析，当考虑内容任务PR、说话人任务SID和VC之间的跨层关系时，我们发现HuBERT Base/Large和 Data2vec Large 在最后一层表现出更高的说话人不变性。这些层具有较高的内容可访问性和较低的演讲者可访问性。与 HuBERT Large 相比，wav2vec 2.0 Large 在所有层上的说话人不变性较差，如图 3 所示。因此，HuBERT Large 中 VC 的最佳单层优于 wav2vec 2.0 Large 中的 VC，分别为 7.06 MCD 和 7.5 MCD。此外，与 Data2vec Large 相比，我们观察到 Data2vec Large 实现了最高程度的说话人不变性（7.38 ACC）和最佳语音信息（2.58 PER），并在目标说话人相似度上达到了最佳 VC 性能，为 6.75 MCD 和 100.00 ACC²⁴²⁴24 我们还对 WavLM Large 进行了分层基准测试，结果与 HuBERT Large 类似。 VC 的最佳层实现了 7.06 MCD、10.85 WER 和 98.25 目标说话人精度，这也比 Data2vec Large 差。由于篇幅限制，我们没有展示所有结果。.

V-B4 VC 的单层基准测试

V-B3 部分的结果表明，应该考虑 VC 上的单层基准测试，因为识别合成框架本质上更喜欢独立于说话人变化的表示⁸。当所有层都被使用时，高说话人训练可达性的层不可避免地会导致源说话人泄漏并误导VC。这种修改使得语音基础有可能在所有 SUPERB 任务上表现出色，只要它拥有具有高说话者可访问性的层和一组具有高内容可访问性和说话者不变性的单独层。因此，我们建议对除 QbE 和 VC 之外的大多数 SUPERB 任务进行加权和方法。前者依赖于不可训练的DTW算法；后者需要排除源说话者信息以保证技术正确性。

VI SUPERB 中的统计显着性

		HuBERT	W2V2	Data2vec	WavLM
	per	PR		ASR		wer
HuBERT	3.29	×	.0610	0	0	3.76
W2V2	4.75	0	×	0	0	3.62
Data2vec	2.55	0	0	×	.2260	3.44
WavLM	3.22	.0930	0	0	×	3.36
	acc	KS		QbE		mtwv
HuBERT	95.29	×	.1192	.0018	0	3.53
W2V2	96.27	.009	×	.0174	0	5.06
Data2vec	96.75	0	.1289	×	0	6.28
WavLM	97.47	0	0	0	×	8.86
	acc	IC		ER		acc
HuBERT	98.76	×	.0028	.0005	.0354	67.58
W2V2	95.68	0	×	.5558	0	65.64
Data2vec	98.31	.0827	0	×	0	65.29
WavLM	99.31	.0035	0	0	×	68.87
	slot-f1	SF		SD		der
HuBERT	89.81	×	.1569	.0513	0	5.75
W2V2	86.94	0	×	.5412	0	5.62
Data2vec	90.98	0	0	×	0	5.53
WavLM	92.21	0	0	.0001	×	3.24
	acc	SID		SV		eer
HuBERT	90.33	×	.0386	.1212	0	5.99
W2V2	86.15	0	×	.6039	0	5.65
Data2vec	76.77	0	0	×	0	5.73
WavLM	95.49	0	0	.0002	×	3.77
	wer	OOD-ASR (avg)		ST		bleu
HuBERT	42.28	×	0	0	0	20.23
W2V2	42.90	0	×	0	0	12.78
Data2vec	42.71	0	.3103	×	.0113	23.02
WavLM	32.66	0	0	0	×	26.56
	pesq	SE (pesq)		SE (stoi)		stoi
HuBERT	94.18	×	0	0	0	2.64
W2V2	94.04	.0036	×	0	0	2.52
Data2vec	93.95	0	.0444	×	0	2.56
WavLM	94.51	0	0	.0002	×	2.70
	sisdri	SS		VC		mcd
HuBERT	10.45	×	0	0	0	7.22
W2V2	10.02	0	×	0	0	7.63
Data2vec	9.76	0	0	×	0	7.02
WavLM	11.07	0	0	0	×	7.3
	wer	OOD-ASR (es)		OOD-ASR (ar)		wer
HuBERT	28.89	×	0	0	0	48.95
W2V2	34.3	0	×	.3680	0	52.91
Data2vec	34.22	0	.8730	×	0	52.6
WavLM	24.39	0	0	0	×	46.72
	cer	OOD-ASR (zh)		OOD-ASR (spon)		wer
HuBERT	22.02	×	0	0	0	69.7
W2V2	23.43	0	×	0	0	61.16
Data2vec	24.43	0	0	×	0	59.82
WavLM	20.06	0	0	0	×	39.65

我们分析了 SUPERB 排行榜的统计显着性，因为它包含表现最好的模型之间高度相似的结果，而改进的显着性仍然未知。为了计算 p 值，我们使用 scl*te²⁵²⁵25https://github.com/usnistgov/SCTK 工具包，用于执行 PR、ASR 和 OOD-ASR 的 MAPSSWE [119] 测试任务。对于SV，我们按照[120]对相应的分类误差进行比例检验。对于ST，我们按照[121]进行配对引导重采样。对于分类任务KS、IC、ER、SID，我们进行McNemar检验[122]。我们对 SD [123] 进行学生 t 检验。对于其余任务 VC、SE、SS 和 QbE，由于据我们所知没有找到明显的选择，因此我们进行了学生 t 检验。

我们在表VII中展示了四种领先 SSL 模型的结果：wav2vec 2.0 Large、HuBERT Large、Data2vec Large 和 WavLM Large。在大多数任务中，模型差异都很显着，而 SV 和 SD 的差异通常不显着。就 DER 分数而言，Data2vec Large 排名领先于 wav2vec 2.0 Large，其次是 HuBERT Large。然而，p 值表明它们的表现在统计上是相等的。结果表明，在对模型进行排名时应考虑统计显着性，因为即使是微小的随机干扰也可能导致排名发生明显变化。在 QBE 上，wav2vec 2.0 Large 和 Data2vec Large 显示出 1.22 MTWV 的差异，这是显着的，而 wav2vec 2.0 Large 和 HuBERT Large 显示出 1.53 MTWV 的差异，这是不显着的，这表明总体分数上的较大差异并不一定会导致更多取得了显着的成果。尽管所有模型在 SE 和 SS 上的 PESQ、STOI 和 SISDRi 分数都非常相似，但它们都通过了显着性检验，这表明改进虽小，但在测试话语中是一致的。我们的结论是，存在统计上不显着的结果，并鼓励参与者进行统计测试。我们将发布下游预测文件以及计算 p 值的方法。

VII SUPERB的稳健性

我们讨论了所提出的基准的稳健性。我们在[35]中检查了SUPERB-SG的鲁棒性，并将检查扩展到本工作中SUPERB[34]中定义的任务。由于篇幅限制，我们分别针对内容、说话者和副语言信息选择代表性任务 PR、SID 和 ER。

我们讨论两种类型的条件变化：资源不足和录音失真。对于资源匮乏的情况，我们考虑两个层次。对于 PR，我们分别从 LibriSpeech train-clean-100 子集中随机采样 1 小时和 10 分钟的录音，分别用于少样本和极端少样本条件；我们从每个说话者中随机抽取 30 和 5 个话语作为 SID；我们从 ER 的每个情绪类别中随机抽取 30 和 5 个话语。开发和测试集与原始集相同。对于失真情况，我们考虑将附加噪声或/和混响应用于训练、开发和测试集。对于附加噪声，WHAM! [87] 训练数据集的训练集、验证集和测试集分别应用于 PR、SID 和 ER 的训练集、验证集和测试集。每个噪声添加的 SNR 是从 3、6 和 9 dB 中随机采样的。对于混响，我们将语音与 [124] 中的房间脉冲响应 (RIR) 数据进行卷积。模拟的 RIR 分为相应语音的训练集和开发集。真实的 RIR 应用于测试语音。当同时应用加性噪声和混响时，我们遵循上面相同的设置，先应用加性噪声，然后再应用混响。我们在图 5 中展示了 HuBERT Large、wav2vec 2.0 Large、WavLM Large 和 Data2vec Large 的结果。

A Large-Scale Evaluation of Speech Foundation Models (5)

A Large-Scale Evaluation of Speech Foundation Models (6)

首先，图5显示，对于PR、SID和ER，不同的条件变化并不会导致排名显着不同。在少样本 PR 中，我们发现 Data2vec Large 在低资源条件下表现出更好的鲁棒性，因为与其他所有样本相比，它的斜率更平滑。尽管 WavLM Large 和 HuBERT Large 在具有 100 小时数据的默认 PR 设置中显示出不显着的差异（表 VII)，但 HuBERT Large 相对于少样本 1 小时和 10 分钟设置更加稳健。另一方面，WavLM 对于失真条件更加稳健，并且在应用噪声和混响时进一步超越 Data2vec。这一结果表明，虽然由于性能饱和，模型在默认 SUPERB 设置下可能会获得相似的分数，但它们可能具有不同的鲁棒性特征。在SID和ER中，默认的SUPERB可以完美体现性能。

总之，与[35]中的结果类似，SUPERB的默认实验设置对于各种场景都是稳健的，尽管有一些例外。我们的分析表明，每个模型在不同条件下都表现出不同程度的弹性。标准 SUPERB 评估可能无法完全捕捉这些细微差别。这一发现指导我们开发更具挑战性的 SUPERB 版本。

八结论

我们提出了 SUPERB 基准，这是一个用于评估语音基础模型的框架。标准化的 15 项任务涵盖了广泛的语音处理任务，包括判别任务和生成任务。33 个评估模型提供了全面的基线。通过广泛的评估，我们验证了 SSL 模型在众多 SUPERB 任务中具有通用性，并且与传统管道相比，性能最佳的模型可实现接近或更好的性能。对于基准测试最佳实践，由于说话人不变性⁸，我们建议对语音转换进行逐层单层基准测试。此外，我们观察到层权重不适合分析层性能，并且模型之间的排名需要仔细的统计测试。最后，我们的稳健性分析表明，扭曲和少样本条件有助于为一般语音理解和生成创建更具挑战性和现实的基准。我们开源所有材料，以降低复制、基准测试、提交和分析的障碍。我们欢迎研究人员加入我们活跃的社区，共同推动研究前沿。

致谢

向Jardin Hsu致以最深的谢意，他一直是我最坚实的精神支柱和指引。没有她，我不可能克服所有技术和心理挑战来完成这篇文章。我还要向我的古典钢琴老师杨彦斌表示最深切的谢意。她对音乐的奉献以及对更好的声音和更有意义的信息的不懈追求深刻地影响了我重新思考科学研究的目的和方法。最后，我要感谢李林山教授，他的演讲和精神始终深深地激励着我。

参考

[1]T. Parcollet and M. Ravanelli, “The Energy and Carbon Footprint of Training End-to-End Speech Recognizers,” in Proc. Interspeech 2021, 2021, pp. 4583–4587.
[2]R. Bommasani, D. A. Hudson, E. Adeli, R. Altman, S. Arora, S. von Arx, M. S. Bernstein, J. Bohg, A. Bosselut, E. Brunskill et al., “On the opportunities and risks of foundation models,” arXiv preprint arXiv:2108.07258, 2021.
[3]M. Oquab, T. Darcet, T. Moutakanni, H. V. Vo, M. Szafraniec, V. Khalidov, P. Fernandez, D. HAZIZA, F. Massa, A. El-Nouby et al., “Dinov2: Learning robust visual features without supervision,” Transactions on Machine Learning Research, 2023.
[4]A. Radford, J. W. Kim, C. Hallacy, A. Ramesh, G. Goh, S. Agarwal, G. Sastry, A. Askell, P. Mishkin, J. Clark et al., “Learning transferable visual models from natural language supervision,” in International conference on machine learning. PMLR, 2021, pp. 8748–8763.
[5]Y. Liu, M. Ott, N. Goyal, J. Du, M. Joshi, D. Chen, O. Levy, M. Lewis, L. Zettlemoyer, and V. Stoyanov, “Roberta: A robustly optimized bert pretraining approach,” arXiv preprint arXiv:1907.11692, 2019.
[6]J. Devlin, M.-W. Chang, K. Lee, and K. Toutanova, “Bert: Pre-training of deep bidirectional transformers for language understanding,” in NAACL, 2019, pp. 4171–4186.
[7]T. Chen, S. Kornblith, M. Norouzi, and G. Hinton, “A simple framework for contrastive learning of visual representations,” in Proceedings of the 37th ICML, ser. Proceedings of Machine Learning Research, H. D. III and A. Singh, Eds., vol. 119. PMLR, 13–18 Jul 2020, pp. 1597–1607.
[8]Y.-A. Chung, W.-N. Hsu, H. Tang, and J. Glass, “An Unsupervised Autoregressive Model for Speech Representation Learning,” in Interspeech, 2019, pp. 146–150.
[9]A. T. Liu, S.-w. Yang, P.-H. Chi, P.-c. Hsu, and H.-y. Lee, “Mockingjay: Unsupervised speech representation learning with deep bidirectional transformer encoders,” ICASSP, 2020.
[10]A. T. Liu, S.-W. Li, and H.-y. Lee, “Tera: Self-supervised learning of transformer encoder representation for speech,” IEEE/ACM Transactions on Audio, Speech, and Language Processing, vol. 29, pp. 2351–2366, 2021.
[11]S. Ling and Y. Liu, “Decoar 2.0: Deep contextualized acoustic representations with vector quantization,” arXiv preprint arXiv:2012.06659, 2020.
[12]A. van den Oord, Y. Li, and O. Vinyals, “Representation learning with contrastive predictive coding,” CoRR, vol. abs/1807.03748, 2018.
[13]S. Schneider, A. Baevski, R. Collobert, and M. Auli, “wav2vec: Unsupervised pre-training for speech recognition.” in Interspeech, 2019.
[14]A. Baevski, S. Schneider, and M. Auli, “vq-wav2vec: Self-supervised learning of discrete speech representations,” in ICLR, 2020.
[15]A. Baevski, Y. Zhou, A. Mohamed, and M. Auli, “wav2vec 2.0: A framework for self-supervised learning of speech representations,” in NeurIPS, 2020.
[16]M. Ravanelli, J. Zhong, S. Pascual, P. Swietojanski, J. Monteiro, J. Trmal, and Y. Bengio, “Multi-task self-supervised learning for robust speech recognition,” in ICASSP, 2020, pp. 6989–6993.
[17]W.-N. Hsu, B. Bolte, Y.-H. H. Tsai, K. Lakhotia, R. Salakhutdinov, and A. Mohamed, “Hubert: Self-supervised speech representation learning by masked prediction of hidden units,” ICASSP, vol. 29, pp. 3451–3460, 2021.
[18]S. Chen, C. Wang, Z. Chen, Y. Wu, S. Liu, Z. Chen, J. Li, N. Kanda, T. Yoshioka, X. Xiao et al., “Wavlm: Large-scale self-supervised pre-training for full stack speech processing,” IEEE Journal of Selected Topics in Signal Processing, vol. 16, no. 6, pp. 1505–1518, 2022.
[19]Z. Fan, M. Li, S. Zhou, and B. Xu, “Exploring wav2vec 2.0 on speaker verification and language identification,” arXiv preprint arXiv:2012.06185, 2020.
[20]C.-I. Lai, Y.-S. Chuang, H.-Y. Lee, S.-W. Li, and J. Glass, “Semi-supervised spoken language understanding via self-supervised speech and language model pretraining,” in ICASSP, 2021.
[21]Y. Y. Lin, C.-M. Chien, J.-H. Lin, H.-y. Lee, and L.-s. Lee, “Fragmentvc: Any-to-any voice conversion by end-to-end extracting and fusing fine-grained voice fragments with attention,” arXiv preprint arXiv:2010.14150, 2020.
[22]L. Pepino, P. Riera, and L. Ferrer, “Emotion Recognition from Speech Using wav2vec 2.0 Embeddings,” in Proc. Interspeech 2021, 2021, pp. 3400–3404.
[23]A. Wang, A. Singh, J. Michael, F. Hill, O. Levy, and S. Bowman, “GLUE: A multi-task benchmark and analysis platform for natural language understanding,” in EMNLP, 2018, pp. 353–355.
[24]P.-E. Sarlin, D. DeTone, T. Malisiewicz, and A. Rabinovich, “Superglue: Learning feature matching with graph neural networks,” in Proceedings of the IEEE/CVF conference on computer vision and pattern recognition, 2020, pp. 4938–4947.
[25]A. Baevski, W.-N. Hsu, Q. Xu, A. Babu, J. Gu, and M. Auli, “Data2vec: A general framework for self-supervised learning in speech, vision and language,” in International Conference on Machine Learning. PMLR, 2022, pp. 1298–1312.
[26]T. A. Nguyen, M. de Seyssel, P. Rozé, M. Rivière, E. Kharitonov, A. Baevski, E. Dunbar, and E. Dupoux, “The zero resource speech benchmark 2021: Metrics and baselines for unsupervised spoken language modeling,” in NeuRIPS Workshop on Self-Supervised Learning for Speech and Audio Processing, 2020.
[27]S. Evain, H. Nguyen, H. Le, M. Z. Boito, S. Mdhaffar, S. Alisamir, Z. Tong, N. Tomashenko, M. Dinarelli, T. Parcollet et al., “Lebenchmark: A reproducible framework for assessing self-supervised representation learning from speech,” in INTERSPEECH 2021: Conference of the International Speech Communication Association, 2021.
[28]T. Parcollet, H. Nguyen, S. Evain, M. Z. Boito, A. Pupier, S. Mdhaffar, H. Le, S. Alisamir, N. Tomashenko, M. Dinarelli et al., “Lebenchmark 2.0: A standardized, replicable and enhanced framework for self-supervised representations of french speech,” Computer Speech & Language, p. 101622, 2024.
[29]S. Shon, A. Pasad, F. Wu, P. Brusco, Y. Artzi, K. Livescu, and K. J. Han, “Slue: New benchmark tasks for spoken language understanding evaluation on natural speech,” in ICASSP 2022-2022 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2022, pp. 7927–7931.
[30]S. Shon, S. Arora, C.-J. Lin, A. Pasad, F. Wu, R. Sharma, W.-L. Wu, H.-Y. Lee, K. Livescu, and S. Watanabe, “SLUE phase-2: A benchmark suite of diverse spoken language understanding tasks,” arXiv preprint arXiv:2212.10525, 2022.
[31]A. Conneau, A. Bapna, Y. Zhang, M. Ma, P. von Platen, A. Lozhkov, C. Cherry, Y. Jia, C. Rivera, M. Kale, D. van Esch, V. Axelrod, S. Khanuja, J. Clark, O. Firat, M. Auli, S. Ruder, J. Riesa, and M. Johnson, “XTREME-S: Evaluating Cross-lingual Speech Representations,” in Proc. Interspeech 2022, 2022, pp. 3248–3252.
[32]A. Conneau, M. Ma, S. Khanuja, Y. Zhang, V. Axelrod, S. Dalmia, J. Riesa, C. Rivera, and A. Bapna, “Fleurs: Few-shot learning evaluation of universal representations of speech,” in 2022 IEEE Spoken Language Technology Workshop (SLT). IEEE, 2023, pp. 798–805.
[33]I. Tenney, D. Das, and E. Pavlick, “Bert rediscovers the classical nlp pipeline,” in Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics, 2019, pp. 4593–4601.
[34]S. wen Yang, P.-H. Chi, Y.-S. Chuang, C.-I. J. Lai, K. Lakhotia, Y. Y. Lin, A. T. Liu, J. Shi, X. Chang, G.-T. Lin, T.-H. Huang, W.-C. Tseng, K. tik Lee, D.-R. Liu, Z. Huang, S. Dong, S.-W. Li, S. Watanabe, A. Mohamed, and H. yi Lee, “SUPERB: Speech Processing Universal PERformance Benchmark,” in Proc. Interspeech 2021, 2021, pp. 1194–1198.
[35]H.-S. Tsai, H.-J. Chang, W.-C. Huang, Z. Huang, K. Lakhotia, S.-w. Yang, S. Dong, A. Liu, C.-I. Lai, J. Shi et al., “SUPERB-SG: Enhanced speech processing universal performance benchmark for semantic and generative capabilities,” in Proceedings of the 60th ACL, 2022, pp. 8479–8492.
[36]V. Panayotov, G. Chen, D. Povey, and S. Khudanpur, “Librispeech: An ASR corpus based on public domain audio books,” in ICASSP, 2015, pp. 5206–5210.
[37]Z. Huang, Y. Shao, S.-X. Zhang, and D. Yu, “Unix-encoder: A universal x-channel speech encoder for ad-hoc microphone array speech processing,” in ICASSP 2024-2024 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2024, pp. 11 991–11 995.
[38]C.-y. Huang, K.-H. Lu, S.-H. Wang, C.-Y. Hsiao, C.-Y. Kuan, H. Wu, S. Arora, K.-W. Chang, J. Shi, Y. Peng et al., “Dynamic-superb: Towards a dynamic, collaborative, and comprehensive instruction-tuning benchmark for speech,” in ICASSP 2024-2024 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2024, pp. 12 136–12 140.
[39]C.-C. Hsu, H.-T. Hwang, Y.-C. Wu, Y. Tsao, and H.-M. Wang, “Voice conversion from non-parallel corpora using variational auto-encoder,” in 2016 Asia-Pacific Signal and Information Processing Association Annual Summit and Conference (APSIPA). IEEE, 2016, pp. 1–6.
[40]——, “Voice conversion from unaligned corpora using variational autoencoding wasserstein generative adversarial networks,” Interspeech 2017, 2017.
[41]K. Qian, Y. Zhang, S. Chang, X. Yang, and M. Hasegawa-Johnson, “Autovc: Zero-shot voice style transfer with only autoencoder loss,” in International Conference on Machine Learning. PMLR, 2019, pp. 5210–5219.
[42]A. Pasad, J.-C. Chou, and K. Livescu, “Layer-wise analysis of a self-supervised speech representation model,” in 2021 IEEE Automatic Speech Recognition and Understanding Workshop (ASRU). IEEE, 2021, pp. 914–921.
[43]E. Dunbar, J. Karadayi, M. Bernard, X.-N. Cao, R. Algayres, L. Ondel, L. Besacier, S. Sakti, and E. Dupoux, “The zero resource speech challenge 2020: Discovering discrete subword and word units,” in Interspeech 2020-Conference of the International Speech Communication Association, 2020.
[44]J. Shor, A. Jansen, W. Han, D. Park, and Y. Zhang, “Universal paralinguistic speech representations using self-supervised conformers,” in ICASSP 2022-2022 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2022, pp. 3169–3173.
[45]Y. Wang, A. Boumadane, and A. Heba, “A fine-tuned wav2vec 2.0/hubert benchmark for speech emotion recognition, speaker verification and spoken language understanding,” arXiv preprint arXiv:2111.02735, 2021.
[46]A. Conneau, M. Ma, S. Khanuja, Y. Zhang, V. Axelrod, S. Dalmia, J. Riesa, C. Rivera, and A. Bapna, “Fleurs: Few-shot learning evaluation of universal representations of speech,” in 2022 IEEE Spoken Language Technology Workshop (SLT). IEEE, 2023, pp. 798–805.
[47]A. Conneau, A. Bapna, Y. Zhang, M. Ma, P. von Platen, A. Lozhkov, C. Cherry, Y. Jia, C. Rivera, M. Kale et al., “Xtreme-s: Evaluating cross-lingual speech representations,” arXiv preprint arXiv:2203.10752, 2022.
[48]T.-h. Feng, A. Dong, C.-F. Yeh, S.-w. Yang, T.-Q. Lin, J. Shi, K.-W. Chang, Z. Huang, H. Wu, X. Chang et al., “SUPERB@SLT 2022: Challenge on generalization and efficiency of self-supervised speech representation learning,” in 2022 IEEE Spoken Language Technology Workshop (SLT). IEEE, 2023, pp. 1096–1103.
[49]J. Shi, D. Berrebbi, W. Chen, H.-L. Chung, E.-P. Hu, W. P. Huang, X. Chang, S.-W. Li, A. Mohamed, H.-y. Lee et al., “ML-SUPERB: Multilingual speech universal performance benchmark,” arXiv preprint arXiv:2305.10615, 2023.
[50]M. Peters, M. Neumann, M. Iyyer, M. Gardner, C. Clark, K. Lee, and L. Zettlemoyer, “Deep contextualized word representations,” in NAACL, 2018, pp. 2227–2237.
[51]M. Ott, S. Edunov, A. Baevski, A. Fan, S. Gross, N. Ng, D. Grangier, and M. Auli, “fairseq: A fast, extensible toolkit for sequence modeling,” in Proceedings of the 2019 Conference of NACCL (Demonstrations), 2019, pp. 48–53.
[52]A. Radford, J. W. Kim, T. Xu, G. Brockman, C. McLeavey, and I. Sutskever, “Robust speech recognition via large-scale weak supervision,” in International Conference on Machine Learning. PMLR, 2023, pp. 28 492–28 518.
[53]Q. Xu, T. Likhomanenko, J. Kahn, A. Hannun, G. Synnaeve, and R. Collobert, “Iterative pseudo-labeling for speech recognition,” Proc. Interspeech 2020, pp. 1006–1010, 2020.
[54]V. Chemudupati, M. Tahaei, H. Guimaraes, A. Pimentel, A. Avila, M. Rezagholizadeh, B. Chen, and T. Falk, “On the transferability of whisper-based representations for” in-the-wild” cross-task downstream speech applications,” arXiv preprint arXiv:2305.14546, 2023.
[55]A. Nagrani, J. S. Chung, W. Xie, and A. Zisserman, “Voxceleb: Large-scale speaker verification in the wild,” Computer Speech & Language, vol. 60, p. 101027, 2020.
[56]M. Hajibabaei and D. Dai, “Unified hypersphere embedding for speaker recognition,” arXiv preprint arXiv:1807.08312, 2018.
[57]C. Busso et al., “Iemocap: Interactive emotional dyadic motion capture database,” Language resources and evaluation, vol. 42, no. 4, pp. 335–359, 2008.
[58]M. Sarma, P. Ghahremani, D. Povey, N. K. Goel, K. K. Sarma, and N. Dehak, “Emotion identification from raw speech signals using dnns.” in Interspeech, 2018, pp. 3097–3101.
[59]P. Warden, “Speech commands: A public dataset for single-word speech recognition.” Dataset available online, 2017.
[60]R. Vygon and N. Mikhaylovskiy, “Learning efficient representations for keyword spotting with triplet loss,” in Speech and Computer: 23rd International Conference, SPECOM 2021, St. Petersburg, Russia, September 27–30, 2021, Proceedings 23. Springer, 2021, pp. 773–785.
[61]Y. Qian, X. Bianv, Y. Shi, N. Kanda, L. Shen, Z. Xiao, and M. Zeng, “Speech-language pre-training for end-to-end spoken language understanding,” in ICASSP. IEEE, 2021, pp. 7458–7462.
[62]T. Likhomanenko, Q. Xu, J. Kahn, G. Synnaeve, and R. Collobert, “slimipl: Language-model-free iterative pseudo-labeling,” arXiv preprint arXiv:2010.11524, 2020.
[63]K. Okabe, T. Koshinaka, and K. Shinoda, “Attentive statistics pooling for deep speaker embedding,” arXiv preprint arXiv:1803.10963, 2018.
[64]J. Cosentino, M. Pariente, S. Cornell, A. Deleforge, and E. Vincent, “Librimix: An open-source dataset for generalizable speech separation,” arXiv preprint arXiv:2005.11262, 2020.
[65]X. Anguera, L. Rodriguez-Fuentes, A. Buzo, F. Metze, I. Szöke, and M. Penagarikano, “Quesst2014: Evaluating query-by-example speech search in a zero-resource setting with real-life queries,” in ICASSP, 2015, pp. 5833–5837.
[66]L. J. Rodríguez-Fuentes, A. Varona, M. Penagarikano, G. Bordel, and M. Diez, “Gtts-ehu systems for quesst at mediaeval 2014.”
[67]A. Coucke et al., “Snips voice platform: an embedded spoken language understanding system for private-by-design voice interfaces,” arXiv preprint arXiv:1805.10190, 2018.
[68]C.-I. Lai, Y.-S. Chuang, H.-Y. Lee, S.-W. Li, and J. Glass, “Semi-supervised spoken language understanding via self-supervised speech and language model pretraining,” in ICASSP, 2021, pp. 7468–7472.
[69]Q. Chen, Z. Zhuo, and W. Wang, “Bert for joint intent classification and slot filling,” arXiv preprint arXiv:1902.10909, 2019.
[70]R. Ardila, M. Branson, K. Davis, M. Kohler, J. Meyer, M. Henretty, R. Morais, L. Saunders, F. Tyers, and G. Weber, “Common voice: A massively-multilingual speech corpus,” in Proceedings of the 12th Language Resources and Evaluation Conference, 2020, pp. 4218–4222.
[71]J. W. Du Bois, W. L. Chafe, C. Meyer, S. A. Thompson, and N. Martey, “Santa Barbara corpus of spoken American English,” CD-ROM. Philadelphia: Linguistic Data Consortium, 2000 – 2005.
[72]C. Wang, A. Wu, and J. Pino, “CoVoST 2: A massively multilingual speech-to-text translation corpus,” 2020.
[73]X. e. a. Li, “Multilingual speech translation from efficient finetuning of pretrained models,” in Proceedings of the 59th ACL, C. Zong, F. Xia, W. Li, and R. Navigli, Eds., Aug. 2021, pp. 827–838.
[74]Y. Zhao, W.-C. Huang, X. Tian, J. Yamagishi, R. K. Das, T. Kinnunen, Z. Ling, and T. Toda, “Voice Conversion Challenge 2020 - Intra-lingual semi-parallel and cross-lingual voice conversion -,” in Proc. Joint Workshop for the BC and VCC 2020, 2020, pp. 80–98.
[75]J.-X. Zhang, L.-J. Liu, Y.-N. Chen, Y.-J. Hu, Y. Jiang, Z.-H. Ling, and L.-R. Dai, “Voice conversion by cascading automatic speech recognition and text-to-speech synthesis with prosody transfer,” arXiv preprint arXiv:2009.01475, 2020.
[76]C. Veaux, J. Yamagishi, and S. King, “The voice bank corpus: Design, collection and data analysis of a large regional accent speech database,” in 2013 international conference oriental COCOSDA held jointly with 2013 conference on Asian spoken language research and evaluation (O-COCOSDA/CASLRE). IEEE, 2013, pp. 1–4.
[77]S. Abdulatif, R. Cao, and B. Yang, “Cmgan: Conformer-based metric-gan for monaural speech enhancement,” arXiv preprint arXiv:2209.11112, 2022.
[78]K. Li, R. Yang, and X. Hu, “An efficient encoder-decoder architecture with top-down attention for speech separation,” arXiv preprint arXiv:2209.15200, 2022.
[79]J. S. Garofolo, L. F. Lamel, W. M. Fisher, J. G. Fiscus, and D. S. Pallett, “Darpa timit acoustic-phonetic continous speech corpus cd-rom. nist speech disc 1-1.1,” NASA STI/Recon technical report n, vol. 93, p. 27403, 1993.
[80]A. Graves, S. Fernández, F. Gomez, and J. Schmidhuber, “Connectionist temporal classification: labelling unsegmented sequence data with recurrent neural networks,” in Proceedings of the 23rd international conference on Machine learning, 2006, pp. 369–376.
[81]D. S. Park, W. Chan, Y. Zhang, C.-C. Chiu, B. Zoph, E. D. Cubuk, and Q. V. Le, “Specaugment: A simple data augmentation method for automatic speech recognition,” in Interspeech, 2019, pp. 2613–2617.
[82]L. J. Rodriguez-Fuentes, A. Varona, M. Penagarikano, G. Bordel, and M. Diez, “Gtts-ehu systems for quesst at mediaeval 2014,” in MediaEval, 2014.
[83]T. Giorgino, “Computing and visualizing dynamic time warping alignments in R: The dtw package,” Journal of Statistical Software, vol. 31, no. 7, pp. 1–24, 2009.
[84]D. Snyder, G. Chen, and D. Povey, “Musan: A music, speech, and noise corpus,” arXiv preprint arXiv:1510.08484, 2015.
[85]D. Snyder, D. Garcia-Romero, G. Sell, D. Povey, and S. Khudanpur, “X-vectors: Robust dnn embeddings for speaker recognition,” in ICASSP, 2018, pp. 5329–5333.
[86]F. Wang, J. Cheng, W. Liu, and H. Liu, “Additive margin softmax for face verification,” IEEE Signal Processing Letters, vol. 25, no. 7, pp. 926–930, 2018.
[87]G. Wichern, J. Antognini, M. Flynn, L. R. Zhu, E. McQuinn, D. Crow, E. Manilow, and J. Le Roux, “Wham!: Extending speech separation to noisy environments,” Proc. Interspeech 2019, pp. 1368–1372, 2019.
[88]Y. Fujita, N. Kanda, S. Horiguchi, K. Nagamatsu, and S. Watanabe, “End-to-end neural speaker diarization with permutation-free objectives,” in Interspeech, 2019, pp. 4300–4304.
[89]L. Lugosch, M. Ravanelli, P. Ignoto, V. S. Tomar, and Y. Bengio, “Speech model pre-training for end-to-end spoken language understanding,” in Interspeech, 2019, pp. 814–818.
[90]C.-I. Lai, J. Cao, S. Bodapati, and S.-W. Li, “Towards semi-supervised semantics understanding from speech,” arXiv preprint arXiv:2011.06195, 2020.
[91]N. Tomashenko et al., “Recent advances in end-to-end spoken language understanding,” in International Conference on Statistical Language and Speech Processing, 2019, pp. 44–55.
[92]M. Post, “A call for clarity in reporting BLEU scores,” in Proceedings of the Third Conference on Machine Translation: Research Papers. Belgium, Brussels: Association for Computational Linguistics, Oct. 2018, pp. 186–191.
[93]W.-C. Huang, S.-W. Yang, T. Hayashi, H.-Y. Lee, S. Watanabe, and T. Toda, “S3prl-vc: Open-source voice conversion framework with self-supervised speech representations,” in ICASSP, 2022, pp. 6552–6556.
[94]L.-J. Liu, Z.-H. Ling, Y. Jiang, M. Zhou, and L.-R. Dai, “Wavenet vocoder with limited training data for voice conversion.” in Interspeech, 2018, pp. 1983–1987.
[95]J. Shen, R. Pang, R. J. Weiss, M. Schuster, N. Jaitly, Z. Yang, Z. Chen, Y. Zhang, Y. Wang, R. Skerry-Ryan, R. A. Saurous, Y. Agiomyrgiannakis, and Y. Wu, “Natural TTS Synthesis by Conditioning WaveNet on MEL Spectrogram Predictions,” in Proc. ICASSP, 2018, pp. 4779–4783.
[96]J. Kong, J. Kim, and J. Bae, “HiFi-GAN: Generative Adversarial Networks for Efficient and High Fidelity Speech Synthesis,” in Proc. NeurIPS, vol. 33, 2020, pp. 17 022–17 033.
[97]D. Wang and J. Chen, “Supervised speech separation based on deep learning: An overview,” IEEE/ACM Transactions on Audio, Speech, and Language Processing, vol. 26, no. 10, pp. 1702–1726, 2018.
[98]D. Yu, M. Kolbæk, Z.-H. Tan, and J. Jensen, “Permutation invariant training of deep models for speaker-independent multi-talker speech separation,” in 2017 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2017, pp. 241–245.
[99]H. Erdogan, J. R. Hershey, S. Watanabe, and J. Le Roux, “Phase-sensitive and recognition-boosted speech separation using deep recurrent neural networks,” in 2015 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2015, pp. 708–712.
[100]M. Kolbæk, D. Yu, Z.-H. Tan, and J. Jensen, “Multitalker speech separation with utterance-level permutation invariant training of deep recurrent neural networks,” IEEE/ACM Transactions on Audio, Speech, and Language Processing, vol. 25, no. 10, pp. 1901–1913, 2017.
[101]Y.-Y. Yang, M. Hira, Z. Ni, A. Astafurov, C. Chen, C. Puhrsch, D. Pollack, D. Genzel, D. Greenberg, E. Z. Yang et al., “Torchaudio: Building blocks for audio and speech processing,” in ICASSP, 2022, pp. 6982–6986.
[102]Y.-A. Chung, H. Tang, and J. Glass, “Vector-quantized autoregressive predictive coding,” in Interspeech, 2020, pp. 3760–3764.
[103]A. H. Liu, Y.-A. Chung, and J. Glass, “Non-autoregressive predictive coding for learning speech representations from local dependencies,” arXiv preprint arXiv:2011.00406, 2020.
[104]P.-H. Chi, P.-H. Chung, T.-H. Wu, C.-C. Hsieh, S.-W. Li, and H.-y. Lee, “Audio albert: A lite bert for self-supervised learning of audio representation,” arXiv preprint arXiv:2005.08575, 2020.
[105]H.-J. Chang, S.-w. Yang, and H.-y. Lee, “Distilhubert: Speech representation learning by layer-wise distillation of hidden-unit bert,” in ICASSP 2022. IEEE, 2022, pp. 7087–7091.
[106]S. Ling, Y. Liu, J. Salazar, and K. Kirchhoff, “Deep contextualized acoustic representations for semi-supervised speech recognition,” in ICASSP 2020-2020 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2020, pp. 6429–6433.
[107]M. Rivière, A. Joulin, P.-E. Mazaré, and E. Dupoux, “Unsupervised pretraining transfers well across languages,” in ICASSP, 2020, pp. 7414–7418.
[108]V. S. Lodagala, S. Ghosh, and S. Umesh, “data2vec-aqc: Search for the right teaching assistant in the teacher-student training setup,” in ICASSP 2023-2023 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2023, pp. 1–5.
[109]——, “Ccc-wav2vec 2.0: Clustering aided cross contrastive self-supervised learning of speech representations,” in 2022 IEEE Spoken Language Technology Workshop (SLT). IEEE, 2023, pp. 1–8.
[110]P. Peng and D. Harwath, “Self-supervised representation learning for speech using visual grounding and masked language modeling,” arXiv preprint arXiv:2202.03543, 2022.
[111]R. Wang, Q. Bai, J. Ao, L. Zhou, Z. Xiong, Z. Wei, Y. Zhang, T. Ko, and H. Li, “Lighthubert: Lightweight and configurable speech representation learning with once-for-all hidden-unit bert,” arXiv preprint arXiv:2203.15610, 2022.
[112]C. Meng, J. Ao, T. Ko, M. Wang, and H. Li, “Cobert: Self-supervised speech representation learning through code representation learning,” arXiv preprint arXiv:2210.04062, 2022.
[113]Y. Peng, Y. Sudo, S. Muhammad, and S. Watanabe, “Dphubert: Joint distillation and pruning of self-supervised speech models,” arXiv preprint arXiv:2305.17651, 2023.
[114]S. Chen, Y. Wu, C. Wang, Z. Chen, Z. Chen, S. Liu, J. Wu, Y. Qian, F. Wei, J. Li et al., “Unispeech-sat: Universal speech representation learning with speaker aware pre-training,” in ICASSP 2022-2022 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2022, pp. 6152–6156.
[115]S. Zaiem, Y. Kemiche, T. Parcollet, S. Essid, and M. Ravanelli, “Speech self-supervised representations benchmarking: a case for larger probing heads,” arXiv preprint arXiv:2308.14456, 2023.
[116]Z. Huang, S. Watanabe, S.-w. Yang, P. García, and S. Khudanpur, “Investigating self-supervised learning for speech enhancement and separation,” in ICASSP 2022-2022 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2022, pp. 6837–6841.
[117]K. Qian, Y. Zhang, H. Gao, J. Ni, C.-I. Lai, D. Cox, M. Hasegawa-Johnson, and S. Chang, “Contentvec: An improved self-supervised speech representation by disentangling speakers,” in International Conference on Machine Learning. PMLR, 2022, pp. 18 003–18 017.
[118]A. Pasad, B. Shi, and K. Livescu, “Comparative layer-wise analysis of self-supervised speech models,” in ICASSP 2023-2023 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2023, pp. 1–5.
[119]D. S. Pallet, W. M. Fisher, and J. G. Fiscus, “Tools for the analysis of benchmark speech recognition tests,” in International Conference on Acoustics, Speech, and Signal Processing. IEEE, 1990, pp. 97–100.
[120]S. Bengio and J. Mariéthoz, “The expected performance curve: a new assessment measure for person authentication,” in Proc. The Speaker and Language Recognition Workshop (Odyssey 2004), 2004, pp. 279–284.
[121]P. Koehn, “Statistical significance tests for machine translation evaluation,” in Proceedings of the 2004 conference on empirical methods in natural language processing, 2004, pp. 388–395.
[122]S. Kornblith, J. Shlens, and Q. V. Le, “Do better imagenet models transfer better?” in Proceedings of the IEEE/CVF conference on computer vision and pattern recognition, 2019, pp. 2661–2671.
[123]Q. Lin, R. Yin, M. Li, H. Bredin, and C. Barras, “Lstm based similarity measurement with spectral clustering for speaker diarization,” in Annual Conference of the International Speech Communication Association, 2019.
[124]T. Ko, V. Peddinti, D. Povey, M. L. Seltzer, and S. Khudanpur, “A study on data augmentation of reverberant speech for robust speech recognition,” in 2017 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2017, pp. 5220–5224.