返回

站长之家 - 业界 2023-11-23 13:47

提前对齐，视频问答新SOTA！北大全新Video-LLaVA视觉语言大模型，秒懂视频笑点

【新智元导读】最近，来自北京大学等机构研究者提出了一种全新视觉语言大模型——Video-LLaVA，使得LLM能够同时接收图片和视频为输入。Video-LlaVA在下游任务中取得了卓越的性能，并在图片、视频的13个基准上达到先进的性能。这个结果表明，统一LLM的输入能让LLM的视觉理解能力提升

本文由站长之家合作伙伴自媒体作者“新智元公众号”授权发布于站长之家平台，本平台仅提供信息索引服务。由于内容发布时间超过平台更新维护时间，为了保证文章信息的及时性，内容观点的准确性，平台将不提供完全的内容展现，本页面内容仅为平台搜索索引使用。需阅读完整内容的用户，请查看原文，获取内容详情。

即将跳转到外部网站

安全性未知，是否继续

继续前往

推荐关键词

24小时热搜

热
4.53万次阅读
1 沙特申博宣传片真是中国拍的网友：这风格意境是中国的手笔
70991次阅读
2 南方人东北购物被店主语气“凶哭”：文化差异导致误解
58002次阅读
3 女子下班回家发现家门口被贴U盘：新型诈骗手段？
39073次阅读
4 爸爸送娃撂下就走结果学校没开门：交警协助联系安全返家
37434次阅读
热
3.23万次阅读
5 宗庆后在黄金地段为员工建廉租房：从不裁45岁以上员工我算有钱
30095次阅读
荐 2020年高通骁龙CPU排名高通骁龙888排名领先
35420次阅读

查看更多内容

大家正在看

LLaVA++：为Phi-3和Llama-3模型增加视觉处理能力

2024-04-283494阅读

AI视频理解天花板，全新MiniGPT4-Video刷爆SOTA！宝格丽宣传片配文一绝

2024-04-072.5万阅读

CTRL-F-VIDEO：允许用户在视频中搜索特定的单词或短语

2024-04-176175阅读

中国首个音乐SOTA模型「天工音乐大模型」今日公测

2024-04-174596阅读

Tools4AI官网体验入口 Java实现LAM使用地址

2024-04-152.4万阅读

Adobe发布视频超分辨率项目VideoGigaGAN 支持8倍视频放大

2024-04-233447阅读

MiniGPT4-Video官网体验入口视频理解多模态AI大模型使用地址

2024-04-081.4万阅读

Adobe推出全新AI技术VideoGigaGAN：视频清晰度提升8倍

2024-04-265404阅读

Suno Music Video官网体验入口 AI音乐视频制作工具在线使用地址

2024-04-085904阅读

Synthesia虚拟数字人Expressive-1 AI Avatars正式版发布

2024-04-261.4万阅读

百度推出AI视频创作模型D&S-AI Video 由百度智能云一念提供支持

2024-04-033.0万阅读

字节发布视觉基础模型ViTamin，多项任务实现SOTA，入选CVPR2024

2024-04-271.1万阅读

开源软件 Tools4AI 将 AI 无缝集成到 Java 企业应用程序中

2024-04-125160阅读

开源大模型王座再易主，通义千问1100亿参数拿下SOTA，3个月已推出8款模型

2024-04-302.6万阅读

特斯拉Model S Plaid升级运动座椅配备 Plaid 专属标识

2024-04-122.3万阅读

Meta计划下周推Llama3基础版，夏季推出全面版

2024-04-108146阅读

Meta新大语言模型LLama 3将在英特尔和高通硬件上运行

2024-04-268851阅读

Meta即将推出新一代Llama3大语言模型

2024-04-091.5万阅读

英伟达联合火星时代发布《NVIDIA TensorRT Stable Diffusion创作加速指南》

2024-04-291.4万阅读

Tavily官网体验入口 AI研究助手使用地址

2024-04-098651阅读