CNCC | 多模态大模型时代的语音音频技术:机遇与挑战并存
CNCC2024
论坛简介:
多模态大模型给语音音频技术带来哪些机遇与挑战?
举办时间:10月24日13:30-17:30
地点:秋苑-澄心堂
注:如有变动,请以官网(https://ccf.org.cn/cncc2024)最终信息为准
语音音频技术是人工智能的重要分支,它让计算机能够理解和生成人类的语音和各种音频,实现与人类自然、流畅、高效的交互。随着多模态大模型的不断发展,语音音频技术正面临前所未有的发展机遇,同时也伴随一系列挑战。
本论坛将聚焦语音音频技术在新一代人工智能及多模态大模型背景下的发展趋势和前沿问题,从语音及音频理解、语音音频与多模态大模型结合、面向AIGC的语音及音频生成、相关技术在人机交互服务中的应用等方面展开思辨和讨论。本论坛邀请了来自清华大学、上海交通大学、启元实验室、中国科学技术大学、香港中文大学(深圳)、希尔贝壳、面壁智能、思必驰等国内外知名语音及音频处理技术专家学者和业界代表,分享他们在语音音频技术领域的最新研究成果和经验,以及对未来技术发展方向的展望。本论坛旨在集思广益,为参与者提供一个交流学习、探索创新、寻求合作的平台,促进学术界与产业界的交流合作,共同推动语音音频技术的创新发展。
论坛亮点
聚焦语音音频技术在新一代人工智能及多模态大模型背景下的发展趋势和前沿问题。
邀请国内外知名专家学者从学术与产业角度深入探讨语音音频技术如何应对新的机遇与挑战。
论坛日程
顺序 | 主题 | 主讲嘉宾 | 单位 |
1 | MiniCPM-V:端侧可用的 GPT-4V 级单图、多图、视频多模态大模型 | 陈驰 | 启元实验室/清华大学 |
2 | SALMONN:认知导向的视听觉大语言模型 | 张超 | 清华大学 |
3 | 基于音频的自监督学习进展及其与大语言模型的结合 | 陈谐 | 上海交通大学 |
4 | Panel环节: | 凌震华 | 中国科学技术大学 |
俞凯 | 上海交通大学/思必驰 | ||
刘知远 | 清华大学/面壁智能 | ||
陈驰 | 启元实验室/清华大学 | ||
张超 | 清华大学 | ||
陈谐 | 上海交通大学 | ||
武执政 | 香港中文大学(深圳) | ||
卜辉 | 希尔贝壳科技有限公司 |
论坛主席及嘉宾介绍