站长之家 - 原创 2026-05-07 15:38

AI日报:千问PC端上线AI语音输入;字节发布全模态大模型Doubao-Seed-2.0-lite;谷歌更新AI搜索功能

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。

新鲜AI产品点击了解https://app.aibase.com/zh

1、千问PC端上线AI语音输入,各类应用里“开口”直接用

千问PC端上线AI语音输入功能,用户可通过快捷键在各类桌面应用中直接使用,具备强大的语义解析能力,能够处理口语内容并进行结构化整理,同时支持语音指令完成多种办公任务,极大提升了工作效率。

image.png

【AiBase提要:】

🗣️ 千问语音输入支持口语内容去语气词、纠错、格式化整理等,能基于上下文智能回复。

📝 用户可通过语音指令在各类应用中直接使用千问进行创作、问答、翻译等操作。

📧 千问可自动生成邮件回复,适应钉钉、微信或邮件场景,提升办公效率

2、字节跳动发布全模态大模型Doubao-Seed-2.0-lite,AI能听会看还能直接“上手”干活

字节跳动旗下火山引擎发布的Doubao-Seed-2.0-lite大模型,实现了视频、图像、音频与文本的原生统一理解,标志着其在多模态交互领域的重要进展。该模型在视觉与逻辑推理能力上表现突出,尤其在物理、医疗等高阶学科的复杂推理测试中性能超越了之前的Pro版本。此外,它还首次实现了GUI理解与执行的一体化,能够完成点击、拖拽、输入等操作,展现了强大的AI能力。

image.png

【AiBase提要:】

✅ 实现视频、图像、音频与文本的原生统一理解

🧠 在物理、医疗等高阶学科的复杂推理测试中性能超越Pro版本

🖱️ 首次实现GUI理解与执行的一体化,能完成点击、拖拽、输入等操作

3、腾讯发布OpenSearch-VL:开源多模态深度搜索 agent 的“全家桶”方案

腾讯混元联合多所高校发布OpenSearch-VL,这是一个开源的多模态深度搜索智能体方案,通过强化学习技术提升模型能力。文章详细介绍了其创新的数据生产流程、强大的工具环境以及故障感知算法,实验表现优异,已计划全量开源,推动多模态智能体研究发展。

image.png

【AiBase提要:】

🧠 创新数据生产线,克服“搜索捷径”

🛠 强大的工具箱:不仅仅是搜索

🔄 “故障感知”算法:让模型从失败中学习

详情链接:https://arxiv.org/pdf/2605.05185

4、月之暗面申请注册KimiClaw商标 或有硬件大动作?

月之暗面近期提交了多枚“KimiClaw”商标注册申请,涵盖科学仪器、网站服务和通讯服务等多个核心领域,表明其在人工智能生态链上的野心逐步显露。公司成立于2023年,由杨植麟创办,专注于通用人工智能领域,并已获得20亿美元融资,估值有望突破200亿美元。

【AiBase提要:】

🧠 月之暗面申请注册“KimiClaw”商标,涉及科学仪器、网站服务及通讯服务领域。

🚀 公司成立时间短,但已获得20亿美元融资,估值有望突破200亿美元。

🔍 商标布局可能预示公司从软件算法向硬件设备或物理交互产品延伸的野心。

5、Mininglamp 开源 Cider+Mano-P,让你的 Mac 变身私有 AI 工作站

Mininglamp 开源了 Cider 和 Mano-P 两个本地 AI 项目,分别解决 Mac 端侧推理加速和 GUI 智能体操作问题,为用户打造完整的本地 AI 工作站,提升效率并保障隐私安全。

image.png

【AiBase提要:】

🧠 Cider 优化 M 系列芯片性能,提升 LLM/VLM 推理速度和效率。

🖱️ Mano-P 实现纯视觉 GUI 操作,支持复杂桌面任务自动化。

🔒 两大项目结合,构建本地私有 AI 基础设施,保障隐私安全。

6、OpenAI携手硬件巨头发布MRC协议,欲终结GPU闲置浪费

OpenAI携手AMD、英特尔、微软及英伟达等企业推出全新开放网络协议MRC,旨在解决超大规模AI集群的效率瓶颈,提升数据传输稳定性并减少GPU闲置浪费,推动算力集群向更高效、绿色的方向发展。

【AiBase提要:】

🧠 MRC协议旨在优化大型AI训练集群的运行表现,提升数据传输稳定性。

⚡ 通过多路径连接方案降低GPU闲置浪费,提高计算效率。

🌐 OpenAI联合多家行业巨头发布MRC协议,推动超大规模算力集群进入高效、绿色新阶段。

7、谷歌更新AI搜索功能:集成Reddit与社交媒体一手观点

谷歌对其生成式AI搜索功能进行了重大升级,通过整合社交媒体、论坛及新闻订阅等一手信息源,优化用户获取信任资讯的效率。此次更新引入了“观点预览”功能,将Reddit和各类网络论坛的真实在线对话与用户查询直接关联,同时在AI回复中嵌入专家建议,并添加创作者名称和社区昵称以增强信源可靠性。

【AiBase提要:】

🧠 引入“观点预览”功能,将Reddit和网络论坛的真实对话与用户查询直接关联。

📊 在AI回复中嵌入专家建议,并添加创作者名称和社区昵称以增强信源可靠性。

🌐 增设延伸链接和建议主题,鼓励用户从单一搜索向深度研究转变。

8、xAI 发布 Grok Imagine 质量模式 API:视觉生成迈入写实新纪元

xAI 公司正式推出 Grok Imagine API 的“质量模式”,在画面写实度、文字渲染精度和创意控制力方面实现重大突破,标志着图像生成迈入写实新纪元。

【AiBase提要:】

🖼️ 提升图像的细腻程度,捕捉自然的皮肤纹理、毛孔细节以及复杂的光影变化。

✍️ 解决了图像生成模型在处理复杂文本时的字符错误或排版混乱问题。

🚀 增强视频生成能力,品牌方可以更高效地产出社交媒体资产、产品展示短片及各类商业广告。

推荐关键词

24小时热搜

查看更多内容

大家正在看

千问终究要回到Chatbot