VSP-LLM：可通过观察视频中人的嘴型来识别唇语

站长之家（ChinaZ.com）2月28日消息:VSP-LLM是一种通过观察视频中人的嘴型来理解和翻译说话内容的技术，也就是识别唇语。该技术能够将视频中的唇动转化为文本（视觉语音识别），并将这些唇动直接翻译成目标语言的文本(视觉语音翻译)。不仅如此，VSP-LLM还能智能识别和去除视频中不必要的重复信息，使处理过程更加快速和准确。

VSP-LLM的开发基于AV-HuBERT模型代码，后者是Facebook开发的一个自监督的视觉语音模型。AV-HuBERT能够从视频中学习语音表示，尤其是从人的唇动中识别语音信息。因此，VSP-LLM利用了AV-HuBERT在视觉语音识别方面的先进技术，作为其视觉语音处理组件的基础。

项目地址：https://top.aibase.com/tool/vsp-llm

该技术结合了视觉语音处理和大语言模型（LLMs）的新型框架，旨在利用LLMs的上下文理解能力来提高视觉语音识别和翻译的准确性和效率。

VSP-LLM的工作原理包括自监督学习、去除输入帧中的冗余信息、利用大语言模型进行上下文建模、多任务执行和低秩适配器（LoRA）。

首先，通过自监督学习的方式，VSP-LLM训练一个视觉语音模型来理解和识别视频中提取的唇动作。自监督学习使得模型能够在没有明确标注的数据情况下，通过自我生成的反馈来学习和提取有用的信息。

其次，为了提高处理效率，VSP-LLM设计了一种去重方法，通过识别视觉语音单元减少输入帧中的冗余信息，进而减少模型需要处理的数据量。

然后，通过将自监督视觉语音模型提取的信息映射到LLMs的输入空间中，VSP-LLM能够实现视觉到文本的映射，进而利用LLMs的上下文建模能力来理解和翻译视频中的唇动作。

此外，VSP-LLM能够执行多任务，包括将视频中的唇动作识别为具体文本（视觉语音识别）或直接翻译这些唇动作成目标语言的文本(视觉语音翻译)。

最后，为了进一步提升训练的计算效率，VSP-LLM采用了低秩适配器（LoRA）技术，这种优化训练过程的方法能够减少计算资源的需求。

免费用户也可创建GPTs了？ChatGPT 即将更新功能曝光 GPT plus不香了！

2024-04-241.3万阅读

首页

IT业界

热点视频

站长资讯

好物榜

更多分类

更多主题

VSP-LLM：可通过观察视频中人的嘴型来识别唇语

推荐关键词

24小时热搜

大家正在看

央视曝光仿冒App诈骗新手段：正常App后台更新变诈骗App

小米汽车APP登顶苹果App Store免费榜

OpenAI正在开发SearchGPT 将成Perplexity强有力的竞争对手

因为一个Rapper，成都有了自己的迪士尼。

享视APP发布核心玩法介绍

OPPO首款等深微曲屏手机！OPPO Reno12渲染图曝光

免费用户也可创建GPTs了？ChatGPT 即将更新功能曝光 GPT plus不香了！

中国AI发明专利TOP 10企业：腾讯第一华为、OPPO均上榜

OPPO A3 Pro手机渲染图正式曝光：屏幕大小未知

史上首个“满级防水”手机！OPPO A3 Pro将支持IP69：可承受高压、水蒸气

全球首个进水敢官方保修的手机：OPPO A3 Pro做到了！

OPPO A3 Pro官宣将于4月12日正式发布

重磅！GPT-4 API全面开放使用

新款iPad Pro用OLED屏实锤：iPadOS 17.5已给出答案

Uppply官网体验入口 AI工作搜索引擎求职平台使用地址

OPPO续航最强手机！OPPO K12发布：1799元起

苹果刀法升级！iPhone 17 Plus尺寸缩小与Pro Max拉开差距

把握TikTok Shop机遇，PingPong助力卖家跑出“跨境增长新速度”

Adobe将Sora、Runway、Pika，集成在PR中

抱抱脸Open了OpenAI的秘密武器，网易参与复现

首页

IT业界

热点视频

站长资讯

好物榜

更多分类

更多主题

VSP-LLM：可通过观察视频中人的嘴型来识别唇语

推荐关键词

24小时热搜

大家正在看

央视曝光仿冒App诈骗新手段：正常App后台更新变诈骗App

小米汽车APP登顶苹果App Store免费榜

OpenAI正在开发SearchGPT 将成Perplexity强有力的竞争对手

因为一个Rapper，成都有了自己的迪士尼。

享视APP发布核心玩法介绍

OPPO首款等深微曲屏手机！OPPO Reno12渲染图曝光

免费用户也可创建GPTs了？ChatGPT 即将更新功能曝光 GPT plus不香了！

中国AI发明专利TOP 10企业：腾讯第一 华为、OPPO均上榜

OPPO A3 Pro手机渲染图正式曝光：屏幕大小未知

史上首个“满级防水”手机！OPPO A3 Pro将支持IP69：可承受高压、水蒸气

全球首个进水敢官方保修的手机：OPPO A3 Pro做到了！

OPPO A3 Pro官宣 将于4月12日正式发布

重磅！GPT-4 API全面开放使用

新款iPad Pro用OLED屏实锤：iPadOS 17.5已给出答案

Uppply官网体验入口 AI工作搜索引擎求职平台使用地址

OPPO续航最强手机！OPPO K12发布：1799元起

苹果刀法升级！iPhone 17 Plus尺寸缩小 与Pro Max拉开差距

把握TikTok Shop机遇，PingPong助力卖家跑出“跨境增长新速度”

Adobe将Sora、Runway、Pika，集成在PR中

抱抱脸Open了OpenAI的秘密武器，网易参与复现

中国AI发明专利TOP 10企业：腾讯第一华为、OPPO均上榜

OPPO A3 Pro官宣将于4月12日正式发布

苹果刀法升级！iPhone 17 Plus尺寸缩小与Pro Max拉开差距