站长之家 - 业界 2025-01-13 15:18

从智能体到世界模型,2025年AI行业还会发生哪些大事?

声明:本文来自于微信公众号 AI新榜,作者:卷毛,授权站长之家转载发布。

2024年,是AI指数级发展的又一年。

大模型浪潮滚滚向前,在技术创新和应用落地上取得多项突破,引起了海内外广泛关注和讨论。

从年初Sora惊艳亮相到国产AI视频生成模型大放异彩;

image.png

AI视频进化对比,X@Dexerto

从多模态模型GPT-4o到推理模型o3;

图片

OpenAI o3模型演示

从一句话生成一首歌到一张图生成3D建模;

图片

Suno主页

从毒舌Dan成为赛博男友到AI独角兽C.ai卖身谷歌;

图片

Character.ai主页

智能体会自主操作手机和电脑到AI编程工具Cursor爆火;

图片

Cursor主页

从首部《人工智能法案》颁布到AI“魔改”短视频被整改……

image.png

AI魔改《甄嬛传》

这一年,AI行业在快速发展的同时,也面临着版权、伦理、隐私等多方面的挑战,不断冲击着人类社会的各个角落。

AI科技公司的竞争更加白热化,巨头们轮番推出各自的新模型和新产品,技术突破与商业化并进,尤其在图像、视频、3D领域持续加码,为AIGC创作带来更多想象力。

“AI新榜”一直在追踪AI行业的前沿热点,特别是与内容行业相关的大模型和应用发展,每个工作日更新#AI日报,每周更新#AI一周热门,每月汇总AIGC行业关键信息,从2024年2月起至今,已发布11期#AIGC月刊。

以此为基础,我们整理了2024年值得关注的AI大事件,并尝试对2025年AI行业的热门趋势进行了预测。

接下来,请与我们一起循着AI的脉络,通向未来的大门。

图片

图片

制图:NUPD

AI推理模型训练加速

自2023年推出GPT-4后,OpenAI的GPT系列成为全球最具影响力的基础大模型,但其垄断优势在2024年被打破,比如Anthropic的Claude3Sonnet、谷歌的Gemini2.0都已经后来追上,稳列第一梯队。

2024年“百模大战”主要聚焦在多模态和推理能力,OpenAI上线了高级语音模式和视频通话功能,《Her》逐渐成为现实。而推理模型需要消耗更多的算力,也需要更久的等待时间,据量子位《2024年度AI十大趋势报告》,以OpenAI的o1模型为代表,模仿学习+强化学习成为典型AI发展路径范式。

“从o1到o3的进展只有三个月,这表明RL的新范式在扩展推理计算的思维链上的进展将有多快,”OpenAI研究员Jason Wei在一条推文中写道,“比每1-2年对新模型进行预训练范式要快得多。”

Anthropic联创Jack Clark认为,OpenAI年底发布的o3意味着2025年的AI进展将比2024年更快。

图片

Jack Clark博客:https://jack-clark.net/

此外,开源模型与闭源模型并行发展,Meta AI、微软、谷歌、Mistral AI 、阿里、智谱、DeepSeek等团队陆续将开源模型推向了新的高度,其中年底发布的DeepSeek v3表现亮眼,与Claude3.5Sonnet不相上下。另一方面,大模型运行token的成本也在激烈的价格战中快速下降,比如Gemini1.5Flash8B定价为0.0375美元/mTok——比去年的GPT-3.5Turbo便宜27倍。

AGI仍未到来,2025年我们大概也不会看到所谓的超级智能,但未来的曙光已经越来越逼近了。据埃隆・马斯克预测,到2025年底,AI将超越任何单个个体的智力,而到2027至2028年,它甚至可能会超越所有人类的智力。到2030年,AI超越所有人类智力的可能性几乎是100%

第一批AI智能体即将上岗

AI Agent是2024年最热门的AI行业应用趋势之一。中文将其通常翻译为“智能体”,两者的概念定义不尽相同,这里我们指的是基于AI技术,能够自主感知、思考并执行决策的智能体。

据谷歌智能体白皮书,智能体是“加强版”的AI,它通过观察世界、使用工具、制定计划和采取行动来实现目标,可以自主行动,超越了基础模型,更像是人类解决问题的方式。即使缺少人类的指令,智能体也能推理下一步应该做什么。

图片

谷歌智能体白皮书:https://www.kaggle.com/whitepaper-agents

微软、谷歌、OpenAI、Anthropic、百度、智谱、字节等各大厂商都在积极抢占AI智能体市场。2024年10月,Anthropic推出的Computer Use(计算机使用)功能惊艳四座,可以让Claude像人一样使用计算机。智谱的AutoGLM同样不甘示弱,手机端可以自主执行超过50步的长步骤操作,也可以跨App执行任务,包括导航、网购、点外卖、微信聊天、写点评等。

2025年1月6日,Sam Altman在《反思(Reflections)》这篇博客中表示,现在OpenAI知道如何构建传统定义的AGI,开始将目标转向真正意义上的超级智能。

“在2025年,我们可能会看到第一批AI智能体‘加入劳动力大军’,并实质性地改变公司的产出。”

图片

Sam Altman博客全文:https://blog.samaltman.com/

此前据内部员工爆料,OpenAI正准备推出一款代号为“Operator”的智能体,可以自动执行各种复杂操作,包括编写代码、预订旅行、自动电商购物等,该产品预计将在2025年1月发布。

正如前腾讯混元大模型技术负责人刘威所预测的,到2025年,智能体作为AI原生应用将会爆发,成为商业软件和SaaS的未来。

国产AI视频模型继续领先

英伟达高级科学家Jim Fan曾预测2024年是AI视频之年,实际的确如此。

OpenAI推出Sora之后,其创新的DiT(Diffusion Transformer)架构引领行业发展,市面上AI视频生成模型和产品层出不穷,尤其从下半年开始,快手可灵、智谱清影、MiniMax的海螺视频、阿里的通义万相、字节的豆包和即梦、腾讯混元视频等国产AI视频产品后来居上,在生成时长、分辨率、运动合理性、可控性等方面都有了显著提升。

头号AI玩家,赞16

海外AI视频产品的更新迭代依旧没有放缓,包括谷歌的Veo、Runway Gen-3Alpha、Pika、Luma AI的Dream Machine等;开源方面,初创公司Lightricks的LTX Video、Genmo的Mochi1等模型则降低了AI视频的应用门槛。

在产品功能上,AI逐渐向视频创作的全流程渗透,生成长度更长,也更加稳定可控了。除了基础的文生视频、图生视频,现在部分产品还支持多张图片生成视频(首尾帧、参考图片主体/背景),视频生视频(风格转绘、视频拓展),此外还有给视频配音效、人物对口型、AI换脸、故事板等功能。

对于专业创作者来说,AI已是辅助创作的得力工具,业内不少AI加持的短剧、广告片、电影相继落地。而对于C端用户,AI视频产品简单易上手,各种有趣的特效模板最受欢迎,例如可灵让人们穿越时空拥抱,Pika用AI模拟爆炸、捏扁等视频特效,Pixverse的毒液变身特效等。我们还给网友们激情创作的AI抽象视频专门颁了个奖。

随着AI视频质量不断提升,训练数据侵权、深度伪造诈骗等安全合规问题也引起广泛关注。对于AI视频厂商而言,如何降低算力成本、提高推理速度、商业化等都是摆在眼前的一道道难题。

可以预见,2025年AI视频依旧是竞逐激烈的热门赛道,技术创新是竞争核心,国产AI视频产品仍有优势。

通向AGI的关键路径是世界模型

AI对话、图像生成和视频生成已经“卷”到飞起,一些玩家开始将目光锁定至3D内容生成,例如Luma AI、Meshy、Tripo。在短视频、游戏配件、工业设计等领域,AI建模的3D内容已经有了用武之地。

“我们生活在一个三维世界中,AI只有突破对3D世界的理解和生成,才能真正追赶上人类智能。”2024年12月,由“AI教母”李飞飞联合创办的World Labs发布了首个“空间智能(Spatial intelligence)”模型,能够仅从一张二维图片生成可交互的3D世界,用户可以在3D场景中像玩游戏一样自由控制相机来探索。

图片

World Labs官网:https://www.worldlabs.ai/blog

空间智能是相对于语言智能的一个概念,比大型语言模型 (LLM)更进一步,可以感知、生成3D世界并与之交互,这样的AI系统被称为大型世界模型(LWM) 。

类似的世界模型还有谷歌的Genie2,它能够生成各种可操作、可玩的3D环境,可用于训练和评估智能体。

图片

Genie2博客:https://deepmind.google/discover/blog/genie-2-a-large-scale-foundation-world-model/

Sora核心作者Tim Brooks跳槽到谷歌DeepMind后,近期他表示要招募新团队来制作大量世界模型。据量子位报道,新团队会和谷歌旗下Gemini、Veo和Genie等团队合作,致力于在构建的世界模型之上开发“实时交互生成”工具;并研究如何将世界模型们与现有的多模态模型,如Gemini等集成。

谷歌表示,在视频和多模态数据上扩展预训练是实现AGI的关键路径。

不仅是3D内容创作,未来世界模型有望推动自动驾驶、机器人、虚拟现实和增强现实等多个领域的创新和进步。

苹果入场,AI硬件有待爆发

QuestMobile报告显示,当下LLM的落地应用在网页端、移动端都已比较成熟,正逐步拓展至智能硬件端。手机则是目前LLM最成熟的落地硬件载体之一,厂商从“卷”配置走向“卷”AI,热卖的新上市机型基本均为AI手机。

苹果在2024年秋季正式进入AI市场,首批Apple Intelligence功能已面向iPhone、iPad和Mac用户推出,支持AI写作、通知摘要、照片增强等功能。并且随着Siri和ChatGPT的整合,苹果可能在2025年占据AI手机市场的领先地位。

图片

不过苹果Apple Intelligence暂时没有向中国市场推出。国内Android手机厂商则陆续启动了AI手机战略,华为、小米、荣耀、OPPO、VIVO等品牌都在新品中内置了AI功能,包括AI语音助手、AI写作、AI修图、AI搜索、AI翻译等。

据新智元报道,IT前沿创新与智能科技产业研究专家胡延平认为,2025年会是智能手机大年,且有多场热战。AI显而易见是第一战场,超级入口又是AI的第一战场,而语音自然交互的“嘴控”又是超级入口的第一战场。

除了手机,面向C端消费者的AI硬件主要集中在智能穿戴设备和智能家居,如耳机、眼镜、音箱。其中AI眼镜受到热捧,苹果、Meta、谷歌、华为、百度、字节等科技大厂都有所布局。

图片

雷朋和Meta合作的AI眼镜

但现阶段智能穿戴类产品无法脱离软件实现AI功能(大多需要与其对应的App连接),技术局限和相对高昂的价格也是制约因素。未来AI眼镜的应用场景或将进一步拓展和深化,从骑行、徒步等运动垂类场景,覆盖至户外多场景需求。

总之,新的一年,“AI新榜”会继续和你一起见证、参与AI行业的风起云涌。

ChatGPT源码推荐:小狐狸ChatGPT付费创作系统完全开源源码

相关话题

推荐关键词

24小时热搜

查看更多内容

大家正在看