188体育app官网_188体育投注

编者寄语

大模型已成为国际人工智能领域研究和应用的前沿焦点,围绕着大模型会否引发新一轮行业变革的讨论受到高度关注。在语音音频研究领域,来自学界与业界的出色研究和成功应用不断涌现,尤其值得共同探讨,包括认知导向的多模态大语言模型的构建、语音增强大语言模型的探索、语音识别与大语言模型融合技术的研发、大语言模型与音频处理的结合、体系化人工智能下的语音基础模型等。

本选题旨在推动语音音频大模型研究进展与实践经验的分享与讨论,将CCF188体育投注相关报告和视频以及其他与选题相关的资源进行聚合,方便会员集中观看学习。



编委主任:苏金树 CCF会士 军事科学院教授

本期主编:凌震华 CCF语音对话与听觉专委会秘书长 中国科学技术大学信息科学技术学院教授

                 吴锡欣 CCF语音对话与听觉专委会执行委员 香港中文大学助理教授

SALMONN:认知导向的视听觉大语言模型

文本大语言模型(LLM)的一个关键缺陷在于其语言认知与物理世界的多模态信息几乎无关。本报告介绍首个通用听觉大语言模型SALMONN。通过将LLM直接与音频和语音编码器连接,实现对语音、音频事件、音乐、声源方位等听觉元素的通用感知和理解,具备语音指令、多语言、跨模态推理等高级能力。还通过视觉编码器及多时空精度因果Q-Former结构,实现认知导向的音视频感知,是第一个能“看”短视频的多模态大模型。

格式:
视频
语音识别与大语言模型融合技术研究综述

在当今时代背景下,多种大语言模型层出不穷,推动了人工智能众多领域的发展和创新。归纳大语言模型在语音识别技术中的积极作用,并探讨其发展前景,可以为语音识别技术的发展提供创新思路。在目前主流的端到端语音识别模型中,常使用额外的语言模型对语音识别结果重打分或结合WFST算法辅助解码来提升语音识别结果的准确率。最新研究发现,将大型语言模型融入语音识别模型的端到端训练中,能够更好地提升语音识别结果的准确率。以浅融合、深度融合、冷融合三类语音识别与语言模型的融合方式为主线,进行了其原理及优劣的分析。近期研究者的实验结果证实,大语言模型与声学模型相结合能够有效提高识别精度。在系统地梳理了大语言模型在语音识别技术中的研究进展后,其在语音识别中的重要作用也得以揭示。语音识别与大语言模型融合的相关技术已经逐渐成熟,值得进一步的探索与深入研究。

格式:
文章
大型语言-音频模型及其应用

大型语言模型(LLMs)在音频处理领域的应用正不断拓展,旨在从语音、音乐、环境噪声、音效及其他非言语音频等复杂声音数据中解析并生成有意义的模式。当与声学模型结合时,LLMs展现出解决音频处理各类问题的巨大潜力,包括音频描述生成、音频合成、音源分离和音频编码等。本次演讲将探讨利用LLMs应对音频相关挑战的最新进展,主题涵盖了用于音频与文本数据映射对齐的语言-音频模型、这些模型在多种音频任务中的应用、语言-音频数据集的构建,以及语言-音频学习未来可能的发展方向。

格式:
视频
大模型时代语音研究的挑战

本报告总结了语音领域过往几次研究突破的成功方法,借以讨论在大模型时代语音技术研究的挑战与机遇。首先,取得技术进展的形式可以是多样化的,包括新的建模方法(如历史上的回退语言模型和基于高斯混合模型的隐马尔可夫模型)、模型的逐步改进、有效的实践经验(如划分训练和测试集和数据集标准化)、收集相关数据集和发掘新任务、开发工具、复现先进性能水平算法的公开recipe与工具、运用科学的评价机制、模型诊断和可视化工具、程序调试工具等。其次,研究进展具有一种“遗传进化模型”,如果将每组的recipe集合视为一个遗传谱系,那么其中某个recipe通常经过微小的变化从另一个recipe中派生出来,有时也有“交叉”,问题在于需要仔细分析实验的训练推理时间(例如大模型通常较慢)、研究跟进速度、实验设置条件等影响进展速度的因素。

格式:
文章
体系化人工智能(Holistic AI)下的语音基础模型

体系化人工智能(Holistic AI,HAI)是中国移动研究院九天团队原创技术的攻关方向,依托泛在的网络和AI 算力,在开放环境中实现对AI能力进行灵活且高效的配置、调度、训练和部署,以满足日益丰富的数智化业务需求,同时确保AI业务可信可控安全,其主要特征为AI服务大闭环、AI能力原子化重构、网络原生AI及安全可信AI。中国移动研究院推出了多项核心技术平台,如九天深度学习平台、九天AI能力平台,等。这些平台具备了智能语音、机器视觉、自然语言理解等核心AI能力,成为企业实现智能化转型的加速器。

格式:
视频

本期编委成员