文本大语言模型(LLM)的一个关键缺陷在于其语言认知与物理世界的多模态信息几乎无关。本报告介绍首个通用听觉大语言模型SALMONN。通过将LLM直接与音频和语音编码器连接,实现对语音、音频事件、音乐、声源方位等听觉元素的通用感知和理解,具备语音指令、多语言、跨模态推理等高级能力。还通过视觉编码器及多时空精度因果Q-Former结构,实现认知导向的音视频感知,是第一个能“看”短视频的多模态大模型。
在当今时代背景下,多种大语言模型层出不穷,推动了人工智能众多领域的发展和创新。归纳大语言模型在语音识别技术中的积极作用,并探讨其发展前景,可以为语音识别技术的发展提供创新思路。在目前主流的端到端语音识别模型中,常使用额外的语言模型对语音识别结果重打分或结合WFST算法辅助解码来提升语音识别结果的准确率。最新研究发现,将大型语言模型融入语音识别模型的端到端训练中,能够更好地提升语音识别结果的准确率。以浅融合、深度融合、冷融合三类语音识别与语言模型的融合方式为主线,进行了其原理及优劣的分析。近期研究者的实验结果证实,大语言模型与声学模型相结合能够有效提高识别精度。在系统地梳理了大语言模型在语音识别技术中的研究进展后,其在语音识别中的重要作用也得以揭示。语音识别与大语言模型融合的相关技术已经逐渐成熟,值得进一步的探索与深入研究。
大型语言模型(LLMs)在音频处理领域的应用正不断拓展,旨在从语音、音乐、环境噪声、音效及其他非言语音频等复杂声音数据中解析并生成有意义的模式。当与声学模型结合时,LLMs展现出解决音频处理各类问题的巨大潜力,包括音频描述生成、音频合成、音源分离和音频编码等。本次演讲将探讨利用LLMs应对音频相关挑战的最新进展,主题涵盖了用于音频与文本数据映射对齐的语言-音频模型、这些模型在多种音频任务中的应用、语言-音频数据集的构建,以及语言-音频学习未来可能的发展方向。
本报告总结了语音领域过往几次研究突破的成功方法,借以讨论在大模型时代语音技术研究的挑战与机遇。首先,取得技术进展的形式可以是多样化的,包括新的建模方法(如历史上的回退语言模型和基于高斯混合模型的隐马尔可夫模型)、模型的逐步改进、有效的实践经验(如划分训练和测试集和数据集标准化)、收集相关数据集和发掘新任务、开发工具、复现先进性能水平算法的公开recipe与工具、运用科学的评价机制、模型诊断和可视化工具、程序调试工具等。其次,研究进展具有一种“遗传进化模型”,如果将每组的recipe集合视为一个遗传谱系,那么其中某个recipe通常经过微小的变化从另一个recipe中派生出来,有时也有“交叉”,问题在于需要仔细分析实验的训练推理时间(例如大模型通常较慢)、研究跟进速度、实验设置条件等影响进展速度的因素。
体系化人工智能(Holistic AI,HAI)是中国移动研究院九天团队原创技术的攻关方向,依托泛在的网络和AI 算力,在开放环境中实现对AI能力进行灵活且高效的配置、调度、训练和部署,以满足日益丰富的数智化业务需求,同时确保AI业务可信可控安全,其主要特征为AI服务大闭环、AI能力原子化重构、网络原生AI及安全可信AI。中国移动研究院推出了多项核心技术平台,如九天深度学习平台、九天AI能力平台,等。这些平台具备了智能语音、机器视觉、自然语言理解等核心AI能力,成为企业实现智能化转型的加速器。