近日,ISC.AI2024多模态时代的大模型关键技术与应用论坛成功召开。本次论坛由360人工智能研究院、中国图象图形学学会联合主办,集结业界知名学者、行业技术佼佼者等前沿代表,围绕多模态时代大模型的技术变革、研发挑战、应用场景等问题展开深入探讨,致力共同探索出多模态大模型发展的“中国路径”,为全行业的数转智改提质加速。
在开场致辞环节中,360集团副总裁、360数智化集团CEO殷宇辉表示,人工智能正在以比较罕见的速度改变世界,其中多模态AI技术是重要研究方向之一,实现了更加自然、有效的人机交互和智能决策。对此,360人工智能研究院、中国图象图形学学会以及全国高校展开了大量的合作,希望通过促进产、学、研、用的深度融合,共同推进相关技术的创新和发展。
中国图象图形学学会副秘书长,北京理工大学光电学院教授、博导刘越则表示,大模型正逐步地从单纯的语言处理迈向多模态融合的新阶段,其潜力与价值正初步显现。多模态大模型的提出,通过引入图像、声音等多模态信息,使人工智能系统具备更加全面、深入的理解与处理能力,这一跨越不仅意味着技术层面的巨大挑战与突破,更预示着人工智能场景的无限拓展与深化。
在主题演讲环节中,中国科学院自动化研究所副总工程师,紫东太初大模型研究中心常务副主任、研究员、博导, 武汉人工智能研究院院长,多模态人工智能产业联盟秘书长王金桥就《多模态大模型的实践与思考》进行了分享。他指出,大模型时代,算力产业成为了新质生产力。伴随着参数量的逐渐增加,海量的智能化算力成为必要基础。
360人工智能研究院副院长、视觉方向负责人冷大炜在《多模态大模型LMM与细粒度开放世界目标检测》的主题分享中提到,多模态大模型本质上学习的是文本模型和图像模态细粒度的对齐,细粒度的开放世界目标检测能力将会对办公自动化、机器人具身智能、自动驾驶领域的发展,具有重要的影响。
复旦大学计算机学院教授,中国中文信息学会大模型大搜索与生成专委会副主任,上海市计算机学会自然语言处理专委会主任邱锡鹏在《从大语言模型到世界模型》的主题分享中提到,人工智能的突破主要特点就是通用性,相比上一代模型来讲,一个模型能够解决非常多的任务。当我们有了这样一个基座,就可以去改变下游任务的形式。
清华大学副研究员,青年人才,哈尔滨工业大学博士,加州大学伯克利分校和哥伦比亚大学博士后赵思成在《大模型端侧部署应用关键技术》的主题分享中指出,终端设备蓬勃发展,应用不断深入,与云侧相比,端侧功耗算力有限,实时性要求高,计算分布化,端侧AI技术成为产业界的核心瓶颈。因此,如何在有限资源的端侧设备上运行大模型,以满足端侧设备的智能化需求,也就是大模型小型化,是人工智能普及的迫切需求。
清华大学电子工程系助理研究员杨舒在《当视频语义描述遇见大模型》的分享中表示,人类对世界的理解是基于触觉、听觉、视觉等多个模态的,我们希望机器也可以从语音、视频、文字等多模态来理解这个世界。所以,如何通过机器学习的方法处理和理解多源异构数据,是多模态学习的核心内容,具体包括多模态表征学习、模态转化、对齐、融合和协同学习这些关键研究内容。
360集团佼佼者算法专家赵光香在《大模型继续预训练》的分享中指出,大模型的继续预训练面临着“二阶段训练的影响”、“绝望之谷的沟壑”以及“迁移效率”等挑战,并就上述问题分享了详细的实战经验。
此外,360人工智能研究院文档理解及知识图谱算法负责人刘焕勇在《面向办公问答应用的多模态文档理解范式》中则表示,多模态模型文档处理是文档办公场景中的重要步骤,对文档理解的程度、解析的精细度,决定了后续文档应用场景性能效果的上限。真实落地场景中的文档处理,既需要考虑模型准确性,也需要考虑速度、推理成本等。
作为新质生产力发展的重要引擎,多模态大模型进入了研发和落地的爆发期,进一步实现了多模态信息的混合输出能力。在此背景下,ISC.AI2024多模态时代的大模型关键技术与应用论坛有效促进了国内多模态大模型研究的发展,加强了学术界和工业界的技术交流和成果转化,对推动人工智能行业的发展具有深远意义。