站长之家用户 - 传媒 2024-09-09 11:47

声网对话式AI解决方案上新构建实时多模态AI交互

在生成式人工智能领域，大模型多模态交互能力的升级正掀起一股新的 AI 浪潮，在 RTC 能力的加持下，人与 AI 的交互不再局限于文字，也可以通过语音通话进行生动、流畅的低延时交互，这也成为当下国内外大模型厂商新的发力点。

今年5月，GPT-4o 的发布开创了AI 实时语音交互的先河。在此之前，一些传统的大模型已经具备语音交互的能力，但一般采用 WebSocket 方案，这一方案虽然应用广泛，但其传输架构是基于 TCP 协议来构建，延迟较高，在 STT-LLM-TTS 的三步骤中，一个来回的延迟就要2-3秒，在弱网等非理想网络环境下，整体语音交互的延时更达到4秒+。在 GPT-4o 采用 RTC 方案后，展现出了自然、流畅的低延时语音交互体验，也让更多企业与开发者看到了在 AI 语音交互中 RTC 方案的更优性，并积极与 RTC 厂商合作，升级 AI 语音交互的体验。

声网对话式AI解决方案构建实时多模态AI语音交互

声网作为全球实时互动云行业的开创者，在音视频领域积累了深厚的技术优势与场景实践，通过与客户在 AIGC 场景的深度合作，探索出了一套实时多模态对话式 AI 解决方案，该方案以语音为核心，支持视频扩展，实现文本/音频/图像/视频的组合输入&输出，通过丰富的功能构建真实、自然的 AI 语音交互体验。

例如对交互延迟进行优化，延迟可做到1s以内;支持 AI 降噪、背景人声过滤，让语音对话更纯静;支持随时打断与超拟人化人声合成，让对话更智能与逼真;同时还支持灵活可扩展的 AI Agent 架构等一系列功能，帮助开发者与企业快速构建适配自己业务场景的 AI 实时语音对话服务。

图:声网实时多模态对话式AI解决方案架构图

1、延迟低于1s，极速响应:声网实时多模态对话式AI解决方案可做到语音对话延迟低于1s。通过在客户端进行低延迟的音频采集和播放、借助声网自研的 SD-RTN™ 实时传输网络实现全球范围的低延时 RTC 传输，并进一步通过更准确低延迟的AI VAD、更快速的 LLM 推理首字耗时、低延迟流式 TTS、同机部署等一系列技术手段，保证对话的实时性与流畅性。

2、智能打断，贴近真实会话:在人类真实的语音对话中，打断对方并提出新的疑问是非常常见的现象，而在 AIGC 场景，能否支持随时打断也成为衡量大模型智能化的重要指标。声网的方案也支持先进的 AI 语音活动检测（AI VAD）技术，可实现灵敏的自然语音打断，模拟人类对话的自然流动，让对话更加真实、自然。

3、嘈杂环境下也能清晰对话:即使在嘈杂的环境中，声网的解决方案也能保证清晰的语音交流。通过AI噪声抑制、背景人声过滤、音乐检测/过滤等算法，确保人与 AI 的对话不受环境干扰，始终保持顺畅。

4、灵活可扩展的AI Agent架构:AI Agent 作为大模型的应用框架，其重要性不言而喻。对于开发者而言，往往会根据自身的喜好或者业务场景选择不同的组件搭配 AI Agent。对此，声网的解决方案采用了灵活可扩展的 AI Agent架构，兼容市场主流的 ASR、LLM 和 TTS 技术，并具备工作流编排能力，帮助开发者与企业根据特定需求定制和扩展 AI 驱动的实时互动体验。

5、超拟人化人声合成:在一些传统的AI语音对话中，AI角色机械式的声音大大降低了对话的真实感。针对这一痛点，声网的解决方案超可实现超拟人真实音色，合成的声音几乎与真人无异，且支持私人定制音色，模拟喜怒哀乐等多种情绪表达，提升用户体验，使互动更加自然，还原真实体验感。

6、支持 RTC 与 SIP 网关互通:AI电话客服是当下 AIGC 应用最广泛的场景之一，具备呼叫中心坐席的特性，对此，声网的解决方案也支持 RTC 与 SIP 网关互通，用户可直接通过声网的RTCSDK 直接呼叫企业客服中心坐席，有效的降低客服成本，提升客服效率。

RTC能力加持下 AIGC应用场景迎来爆发

声网在与客户的合作中发现，在RTC 的加持下，AIGC应用场景迎来进一步爆发，AI智能助手、AI情感陪伴、AI口语老师、AI客服的 AI 交互体验进一步升级，学生的学习效率更高，社交陪聊场景的娱乐性与沉浸感也进一步增强。

来自量子位智库推出的 AI智能助手用户数据报告显示，截止8月国内市场的 AI智能助手 App 已超过64款。在 AI情感陪伴领域也涌现了 Soul、星野、Wow等一系列人气社交APP。

以 AI情感陪伴为例，随着多模态交互能力的升级，当下 AI情感陪伴类产品正呈现出三个特征:

1、语音/视觉交互:除了传统的文本交互外，越来越多的 AI情感陪伴类 APP 也在加入语音通话的功能，让 AI陪伴更具有真实感。同时在视觉交互方面，部分产品也支持了视频通话功能，通过3D建模、拟真渲染等技术构建逼真的数字人，让人与 AI 的情感交互更加拟人化。

2、情感计算:人与 AI 的一个核心区别就是人具备情感，为了让 AI 的回答更加智能与真实，许多 AI 陪伴产品开始加入情感计算的能力。通过语义识别、面部表情等信号检测用户的喜怒哀乐等情绪状态，并做出对应的情感回应，实现更加人性化的交互体验。

3、私人定制:标准化的人机交互千篇一律，个性化的定制才更有新意。具备个性化定制能力，提供自主创作和个性化选项已经成为 AI陪伴类产品的新趋势，例如定制原生IP角色、定制IP专属画风和语音体系、定制专属互动话题等一系列功能。

图:电影《Her》里的AI助理被视为AI情感陪伴的启蒙

在 AI口语老师场景，声网观察发现，1v1教学场景非常适用 AI口语老师，从真人教学变成自学模式，例如正价课1v1与 Demo 课1v1教学，AI数字人老师将代替真人，1v1AI 口语老师将成为未来语言学习机构必备的应用，AI 数字人老师可能用于大龄学生与成人，卡通 IP 可用于低幼龄的课程。同时在职业教育赛道，已经有不少教育机构在大班课场景利用 AI数字人老师教学。

同时，在游戏社交、AI分身、实时语音翻译等场景，实时AI语音也大有可为。例如，在狼人杀、谁是卧底等场景，AI NPC 角色虽然已经在应用，但是 AI 的痕迹还是较为明显。在大模型具备实时语音交互能力后，谁是卧底中的 AI 角色可以做到快速的推理并发言，再搭配语音仿真技术，有望做到 AI 角色的以假乱真。

声网的实时多模态对话式AI解决方案目前已经上线，如您想进一步体验我们的 Demo或者接入该方案，可在声网公众号找到这篇文章，扫描文章底部的二维码联系我们。

24小时热搜

热
4.53万次阅读
1 沙特申博宣传片真是中国拍的网友：这风格意境是中国的手笔
70991次阅读
2 南方人东北购物被店主语气“凶哭”：文化差异导致误解
58002次阅读
3 女子下班回家发现家门口被贴U盘：新型诈骗手段？
39073次阅读
4 爸爸送娃撂下就走结果学校没开门：交警协助联系安全返家
37434次阅读
热
3.23万次阅读
5 宗庆后在黄金地段为员工建廉租房：从不裁45岁以上员工我算有钱
30095次阅读
荐 2020年高通骁龙CPU排名高通骁龙888排名领先
35420次阅读

查看更多内容

首页

IT业界

热点视频

站长资讯

好物榜

更多分类

更多主题

声网对话式AI解决方案上新构建实时多模态AI交互

推荐关键词

24小时热搜

大家正在看

理想同学AI大模型APP抢鲜体验：识物精准、语音交互流畅

多模态交互+健康新突破，歌尔发布新一代智能指环参考设计

AI医疗新纪元：复旦王烁研究员引领多模态医学人工智能技术革新

理想同学上架苹果App Store、小米应用商店：语音交互丝滑如真人识物秒懂

智象多模态生成大模型3.0发布离幻觉更远与离落地更近

全国A级！三六零大模型安全能力获中国人工智能大赛认证

AI 的暗面：永远不要对人工智能聊天机器人说的 10 件事

成都汇阳投资关于Sora 正式上线，多模态模型的里程碑

AI日报：阿里通义开源多模态推理模型QVQ-72B；OpenAI考虑自研人形机器人；QQ音乐上线首个AI大模型音效

AI教父称30年内AI有几率致人类灭亡：人工智能发展远超预期

2025 年智能体崛起，重新定义人工智能的实用边界

寒武纪：卓越适配与务实合作，推动人工智能应用落地

李想：我不想当车企CEO了想做一名人工智能企业CEO

2025 年人工智能的四大预测：从瓶颈到突破，下一步是什么？

苹果股价创历史新高：人工智能将带来「增长的黄金时代」

以人工智能赋能教育数字化，猿辅导飞象星球打造个性化学习方式

松鼠Ai教育科技研发成果斩获两项AI顶会“AAAI 2025人工智能创新应用奖”

2025版实战地图重磅发布：《内容+人工智能品牌增长操作手册》

瓴羊Quick BI成为联合国教科文组织高等教育创新中心人工智能认证课程工具

ChatGPT重大更新：新增实时搜索和高级语音

首页

IT业界

热点视频

站长资讯

好物榜

更多分类

更多主题

声网对话式AI解决方案上新 构建实时多模态AI交互

推荐关键词

24小时热搜

大家正在看

理想同学AI大模型APP抢鲜体验：识物精准、语音交互流畅

多模态交互+健康新突破，歌尔发布新一代智能指环参考设计

AI医疗新纪元：复旦王烁研究员引领多模态医学人工智能技术革新

理想同学上架苹果App Store、小米应用商店：语音交互丝滑如真人 识物秒懂

智象多模态生成大模型3.0发布 离幻觉更远与离落地更近

全国A级！ 三六零大模型安全能力获中国人工智能大赛认证

AI 的暗面：永远不要对人工智能聊天机器人说的 10 件事

成都汇阳投资关于Sora 正式上线，多模态模型的里程碑

AI日报：阿里通义开源多模态推理模型QVQ-72B；OpenAI考虑自研人形机器人；QQ音乐上线首个AI大模型音效

AI教父称30年内AI有几率致人类灭亡：人工智能发展远超预期

2025 年智能体崛起，重新定义人工智能的实用边界

寒武纪：卓越适配与务实合作，推动人工智能应用落地

李想：我不想当车企CEO了 想做一名人工智能企业CEO

2025 年人工智能的四大预测：从瓶颈到突破，下一步是什么？

苹果股价创历史新高：人工智能将带来「增长的黄金时代」

以人工智能赋能教育数字化，猿辅导飞象星球打造个性化学习方式

松鼠Ai教育科技研发成果斩获两项AI顶会“AAAI 2025人工智能创新应用奖”

2025版实战地图重磅发布：《内容+人工智能品牌增长操作手册》

瓴羊Quick BI成为联合国教科文组织高等教育创新中心人工智能认证课程工具

ChatGPT重大更新：新增实时搜索和高级语音

声网对话式AI解决方案上新构建实时多模态AI交互

理想同学上架苹果App Store、小米应用商店：语音交互丝滑如真人识物秒懂

智象多模态生成大模型3.0发布离幻觉更远与离落地更近

全国A级！三六零大模型安全能力获中国人工智能大赛认证

李想：我不想当车企CEO了想做一名人工智能企业CEO