我系8篇论文被NeurIPS 2023录用

发布时间:2023-11-16 16:04  点击数:

近日,我系有3篇论文被人工智能国际顶级会议NeurIPS 2023(Neural Information Processing Systems)录用,其中6篇来自多媒体可信感知与高效计算教育部重点实验室。录用论文简要介绍如下:

1. Cheap and Quick: Efficient Vision-Language Instruction Tuning for Large Language Models

本文提出了一种新颖且经济实惠的解决方案,用于有效地将 LLMs 适应到 VL(视觉语言)任务中,称为 MMA。MMA 不使用大型神经网络来连接图像编码器和 LLM,而是采用轻量级模块,即适配器,来弥合 LLMs 和 VL 任务之间的差距,同时也实现了图像模型和语言模型的联合优化。同时,MMA 还配备了一种路由算法,可以帮助 LLM 在不损害其自然语言理解能力的情况下,在单模态和多模态指令之间实现自动切换。

论文第一作者是人工智能系2021级博士生罗根,通讯作者是纪荣嵘教授,由周奕毅副教授、孙晓帅副教授和2022级硕士生陈晟新等共同合作完成。

2. Improving Adversarial Robustness via Information Bottleneck Distillation

本文提出了信息瓶颈蒸馏(IBD)方法,用两种蒸馏策略来分别匹配信息瓶颈的两个优化过程。首先,利用鲁棒的软标签蒸馏来最大化潜在特征和输出预测之间的互信息;其次,提出了一种自适应特征蒸馏,可以自动将相关知识从教师模型转移到目标模型,从而可以限制输入特征和潜在特征之间的互信息。本文方法在各种基准数据集进行了广泛的实验,实验结果证明了所提出的方法可以显著提高模型的对抗鲁棒性。

论文第一作者是人工智能系2020级博士生匡华峰,通讯作者是纪荣嵘教授,由刘宏博士(日本国立信息研究所)、Shin’ichi Satoh教授(日本国立信息研究所)、吴永坚(腾讯优图)等共同合作完成。

3. Parameter and Computation Efficient Transfer Learning for Vision-Language Pre-trained Models

近年来,视觉语言预训练(VLP)模型的规模和计算量不断增加,导致将这些模型迁移到下游任务时的开销也越来越大。最近的研究重点关注了VLP模型参数高效迁移学习(PETL),该方法仅需更新少量参数即可实现模型任务迁移。然而,大量的计算开销仍然困扰着VLP的应用。因此,本文致力于研究VLP模型参数和计算的高效迁移学习(PCETL)。需要特别注意的是,PCETL不仅要限制VLP模型中可训练参数的数量,还注重减少推理过程中的计算冗余,以实现更高效的传输。为实现这一目标,本文提出了一种新的动态架构跳过(DAS)方法。DAS不是直接优化VLP模型的内在架构,而是通过基于强化学习的过程观察模块对下游任务的重要性,然后使用轻量级网络跳过冗余模块。这样一来,VLP模型的迁移过程能够有效地将可训练参数保持在较低水平,同时加快对下游任务的推理速度。

论文第一作者是人工智能研究院2022级博士生吴穹,通讯作者是纪荣嵘教授,由2022级硕士生余薇、周奕毅副教授、2021级硕士生黄书滨等共同合作完成。