大模型解释与对齐｜SPP第99期

阅读量:12 2025-02-10 收藏本文

大模型时代，可解释和模型对齐变得至关重要。大模型对人的工作生活影响越来越大，但却更加难以理解和控制。OpenAI对外支持的七大研究方向中，可解释和模型对齐就是其中两个。我们应该怎么让深度学习模型变得更透明、可理解、更容易训练、调试和优化，确保它和人类意图对齐呢？本期SPP报告将围绕这些问题进行探讨，介绍我们近期可解释人工智能（XAI）以及利用强化学习从人类反馈学习（RLHF）的方法，探索越狱等大模型安全问题、推理等性能提升的可能解决方案。欢迎参与本期 SPP：7月 31日（本周三）19:30 —21:00。

本期直播你将收获哪些

1、了解大模型解释方法最新进展，及其如何指导模型调试、优化与对齐；

2、了解大模型对齐方法最近进展，特别是计算高效、数据高效的对齐算法；

3、对大模型解释、对齐方向未来发展趋势的思考。

演讲嘉宾

王希廷

CCF高级会员，中国人民大学高瓴人工智能学院助理教授

王希廷为中国人民大学准聘助理教授，曾是MSRA社会计算组首席研究员，本科、博士毕业于清华大学。研究兴趣为可解释、负责任的人工智能，相关科研成果落地全球占有量第二的必应搜索引擎。两篇论文被CCF-A类期刊TVCG评选为封面论文，被邀请担任IJCAI、AAAI领域主席，加入IEEE VIS组委会担任档案主席，Visual Informatics编委，被评为AAAI 2021 杰出高级程序委员。两次受邀在SIGIR可解释推荐研讨会上发表主旨演讲，是CCF和IEEE高级会员。

开课时间

2024年7月31日（本周三）19:30-21:00

188体育app官网_188体育投注

CCF学生分会

大模型解释与对齐｜SPP第99期