语音音频大模型的研究进展与应用前瞻_188体育app官网

编者寄语

大模型已成为国际人工智能领域研究和应用的前沿焦点，围绕着大模型会否引发新一轮行业变革的讨论受到高度关注。在语音音频研究领域，来自学界与业界的出色研究和成功应用不断涌现，尤其值得共同探讨，包括认知导向的多模态大语言模型的构建、语音增强大语言模型的探索、语音识别与大语言模型融合技术的研发、大语言模型与音频处理的结合、体系化人工智能下的语音基础模型等。

本选题旨在推动语音音频大模型研究进展与实践经验的分享与讨论，将CCF188体育投注相关报告和视频以及其他与选题相关的资源进行聚合，方便会员集中观看学习。

编委主任：苏金树 CCF会士军事科学院教授

本期主编：凌震华 CCF语音对话与听觉专委会秘书长中国科学技术大学信息科学技术学院教授

吴锡欣 CCF语音对话与听觉专委会执行委员香港中文大学助理教授

文本大语言模型（LLM）的一个关键缺陷在于其语言认知与物理世界的多模态信息几乎无关。本报告介绍首个通用听觉大语言模型SALMONN。通过将LLM直接与音频和语音编码器连接，实现对语音、音频事件、音乐、声源方位等听觉元素的通用感知和理解，具备语音指令、多语言、跨模态推理等高级能力。还通过视觉编码器及多时空精度因果Q-Former结构，实现认知导向的音视频感知，是第一个能“看”短视频的多模态大模型。

格式：

视频

语音识别与大语言模型融合技术研究综述

王敬凯、秦董洪、白凤波、李路路、孔令儒、徐晨,

在当今时代背景下，多种大语言模型层出不穷，推动了人工智能众多领域的发展和创新。归纳大语言模型在语音识别技术中的积极作用，并探讨其发展前景，可以为语音识别技术的发展提供创新思路。在目前主流的端到端语音识别模型中，常使用额外的语言模型对语音识别结果重打分或结合WFST算法辅助解码来提升语音识别结果的准确率。最新研究发现，将大型语言模型融入语音识别模型的端到端训练中，能够更好地提升语音识别结果的准确率。以浅融合、深度融合、冷融合三类语音识别与语言模型的融合方式为主线，进行了其原理及优劣的分析。近期研究者的实验结果证实，大语言模型与声学模型相结合能够有效提高识别精度。在系统地梳理了大语言模型在语音识别技术中的研究进展后，其在语音识别中的重要作用也得以揭示。语音识别与大语言模型融合的相关技术已经逐渐成熟，值得进一步的探索与深入研究。

格式：

文章

大型语言-音频模型及其应用

王文武,

大型语言模型（LLMs）在音频处理领域的应用正不断拓展，旨在从语音、音乐、环境噪声、音效及其他非言语音频等复杂声音数据中解析并生成有意义的模式。当与声学模型结合时，LLMs展现出解决音频处理各类问题的巨大潜力，包括音频描述生成、音频合成、音源分离和音频编码等。本次演讲将探讨利用LLMs应对音频相关挑战的最新进展，主题涵盖了用于音频与文本数据映射对齐的语言-音频模型、这些模型在多种音频任务中的应用、语言-音频数据集的构建，以及语言-音频学习未来可能的发展方向。

格式：

视频

大模型时代语音研究的挑战

Daniel Povey,

本报告总结了语音领域过往几次研究突破的成功方法，借以讨论在大模型时代语音技术研究的挑战与机遇。首先，取得技术进展的形式可以是多样化的，包括新的建模方法（如历史上的回退语言模型和基于高斯混合模型的隐马尔可夫模型）、模型的逐步改进、有效的实践经验（如划分训练和测试集和数据集标准化）、收集相关数据集和发掘新任务、开发工具、复现先进性能水平算法的公开recipe与工具、运用科学的评价机制、模型诊断和可视化工具、程序调试工具等。其次，研究进展具有一种“遗传进化模型”，如果将每组的recipe集合视为一个遗传谱系，那么其中某个recipe通常经过微小的变化从另一个recipe中派生出来，有时也有“交叉”，问题在于需要仔细分析实验的训练推理时间（例如大模型通常较慢）、研究跟进速度、实验设置条件等影响进展速度的因素。

格式：

文章

体系化人工智能(Holistic AI)下的语音基础模型

冯俊兰,

体系化人工智能(Holistic AI，HAI)是中国移动研究院九天团队原创技术的攻关方向，依托泛在的网络和AI 算力，在开放环境中实现对AI能力进行灵活且高效的配置、调度、训练和部署，以满足日益丰富的数智化业务需求，同时确保AI业务可信可控安全，其主要特征为AI服务大闭环、AI能力原子化重构、网络原生AI及安全可信AI。中国移动研究院推出了多项核心技术平台，如九天深度学习平台、九天AI能力平台，等。这些平台具备了智能语音、机器视觉、自然语言理解等核心AI能力，成为企业实现智能化转型的加速器。

格式：

视频