站长之家 - 业界 2024-05-20 15:04

AI日报:viva发布类Sora视频生成模型;Open AI 宫斗第二季详解;索尼禁止未授权使用其音乐“炼丹”:Coze上线Web SDK

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。

新鲜AI产品点击了解https://top.aibase.com/

1、viva发布类Sora视频生成模型 支持4K分辨率

viva近期推出基于Sora架构的视频生成模型,免费使用,对普通人快速制作视频内容有重大利好影响。模型支持文本生成视频、图片生成视频,4K分辨率放大,提示词自动优化。在视频生成方面表现出色,竖屏视频质量优秀,与谷歌Veo模型接近。民主化视频内容创作工具,普通人也能创作高质量视频。

image.png

【AiBase提要:】

🚀 首个基于Sora架构的视频生成模型,目前可免费使用

🎬 支持4K分辨率、文本和图片生成视频,应该是目前运动幅度最大的视频生成模型

📱 支持提示词的自动优化,文生视频 5 秒,图生视频 4 秒

产品体验地址:https://top.aibase.com/tool/viva

2、Coze上线Web SDK 可快速将机器人嵌入网页

Coze是字节跳动旗下的AI聊天机器人开发平台,推出Web SDK,为用户提供便捷的机器人嵌入网页功能,拓宽了聊天机器人的应用场景。Coze平台提供丰富的功能和优势,包括无限拓展的能力集、丰富的数据源、持久化的记忆能力、灵活的工作流设计等,为用户提供了更大的创作空间。

【AiBase提要:】

🚀 无限拓展的能力集: Coze提供丰富的插件工具,帮助机器人执行更多种类的任务。

📚 丰富的数据源: 用户可以管理和存储数据,实现机器人与用户自己的数据交互。

🔐 持久化的记忆能力: 支持AI记忆重要参数,提高交互连贯性和个性化。

详情链接:https://www.coze.com/docs/developer_guides/web_sdk?_lang=en

3、索尼向700多家公司发出警告,禁止使用其音乐数据训练AI模型

索尼音乐集团警告700多家公司禁止未经许可使用音乐数据训练AI大模型,强调尊重歌曲作者和唱片艺术家的知识产权。该举措体现了对知识产权的重视和对AI模型在音乐数据使用上的监管控制。

【AiBase提要:】

⭐️ 索尼警告700多家公司,禁止未经许可使用音乐数据训练AI大模型

⭐️ AI模型厂商必须尊重歌曲作者和唱片艺术家的知识产权

⭐️ 索尼音乐集团是全球最大音乐公司之一,拥有丰富的音乐版权资源

4、谷歌推3D生成模型CAT3D 1分钟完成3D场景创建

CAT3D是谷歌推出的3D生成模型,在3D重建领域取得显著进展。它能快速生成3D场景,支持多视图输入,实现高质量的3D捕获和实时渲染,具有结构优势,对3D重建管道至关重要。CAT3D的出现将改变虚拟现实、游戏开发、建筑设计等多个行业,为用户带来更真实和互动的体验。

image.png

【AiBase提要:】

✨ 快速生成: CAT3D能够在一分钟内完成整个3D场景的创建,比现有方法更快

🔍 多视图支持: CAT3D不仅支持单图像输入,还能处理多图像输入,生成更丰富详细的3D场景

🌟 高质量的3D捕获: 利用多视图扩散模型,生成高度一致的场景新视图

详情链接:https://top.aibase.com/tool/cat3d

5、谷歌发布Gemini 1.5技术报告 详细介绍Gemini 1.5 Pro模型架构改进情况

谷歌发布的Gemini 1.5技术报告详细介绍了Gemini 1.5 Pro和Gemini 1.5 Flash两个模型的性能特点和架构,展示了其在多模态大型模型领域的最新进展,为未来AI技术发展提供了新的方向。

【AiBase提要:】

🚀 Gemini 1.5 Pro和Gemini 1.5 Flash模型性能提升显著,具有更长的上下文理解能力和更强的推理能力。

💡 Gemini 1.5 Flash是轻量级变体,提高了效率并减少了模型服务延迟,在多模态功能上优化了张量处理单元的使用。

🔍 Gemini 1.5在跨模态长上下文检索任务上表现出色,实现了近乎完美的召回,提高了长文档问答、长视频问答和长上下文自动语音识别的水平。

详情链接:https://storage.googleapis.com/deepmind-media/gemini/gemini_v1_5_report.pdf

6、Open AI 宫斗第二季时间线及各方观点梳理

本文报道了Open AI近期的内部矛盾和人员变动引起的业界广泛关注。围绕AI模型的安全性和发展速度展开的争议,反映了AI发展过程中的两大主题:安全与效率。在保障安全的前提下推动AI技术的发展,是整个行业都需要思考的问题。

【AiBase提要:】

🔍 Open AI内部矛盾引发关注,围绕AI模型安全性和发展速度展开争议。

💼 人员变动中涉及关键人物离职,如Ilya和Jan,引发行业讨论。

⚖️ 社区观点不一,一些人认为应平衡效率和安全性,另一些认为过分担心安全问题是多余的。

详情链接:https://www.chinaz.com/2024/0520/1617697.shtml

7、ElevenLabs推Audio Native 可将网页内容自动转为博客

ElevenLabs推出的新服务Audio Native是一个嵌入式音频播放器,能够自动生成网页内容的高质量人声旁白,帮助将内容自动转为播客形式。用户无需等待即可收听实时生成的语音旁白,提高听众参与度。同时支持多平台集成和灵活的内容管理,让用户定制播放器外观并跟踪听众参与情况。

【AiBase提要:】

🔊 自动生成高质量人声旁白,实时生成语音内容

🎛️ 嵌入式音频播放器轻松嵌入到任何网页中,支持自定义外观

📊 多平台支持,提供听众参与度跟踪和灵活的内容管理

详情链接:https://elevenlabs.io/blog/audio-native/

8、免费AI插图库PictoGraphic超4万张图片可使用

PictoGraphic是一个提供免费AI生成插图库的平台,拥有超过40000张图像和SVG文件。它为设计师提供直观易用的界面,让他们快速找到或创建符合需求的插图。用户可以自定义生成插图,调整颜色,无需信用卡信息即可开始下载和生成插图的服务。

image.png

【AiBase提要:】

🎨 丰富的插图库: 提供超过40,000张不同风格和概念的图像和SVG文件,满足设计师多样化的设计需求。

🖌️ 自定义生成插图: 用户可根据艺术风格,通过文本提示在几秒钟内生成自定义插图,轻松创建新的插图。

🎨 颜色定制: 允许用户直接在平台上调整插图的颜色,增强创意并节省时间。支持直接调整颜色,确保插图与设计方案一致性。

详情链接:https://top.aibase.com/tool/pictographic

9、好莱坞经纪公司CAA为明星提供管理AI形象方案避免遭滥用

好莱坞顶级经纪公司CAA与AI技术公司Veritone合作,推出数字资产管理解决方案,旨在保护明星的AI形象免受滥用。他们建立了虚拟媒体存储系统“theCAAvault”,帮助明星存储姓名、形象、声音等数字资产,确保合法使用和保护权益。

【AiBase提要:】

💡 CAA与Veritone合作,提供数字资产管理解决方案,保护明星AI形象免受滥用。

💡 CAA建立虚拟媒体存储系统“theCAAvault”,明星可存储姓名、形象、声音等数字资产。

💡 CAA的目标是帮助明星通过拥有数字形象确保合法使用和保护权益。

10、华盛顿邮报新增AI音频功能

华盛顿邮报最近推出了AI生成的音频功能,为政治和政策类新闻简报增添了新的阅读体验。这一举措不仅吸引了大量用户,还开辟了新的广告宣传渠道。

【AiBase提要:】

🎙️ 音频功能新增: 华盛顿邮报为三个政治和政策类新闻简报新增了AI生成的音频功能,提供了新的阅读体验。

📊 音频用户增长: 邮报平台每天有400万次音频播放,其中90%来自应用程序,播放量持续增长。

🔊 广告支持: Solventum和PhRMA作为本周简报的启动赞助商,首次包含AI生成的音频广告。

11、Snapchat 计划每年在人工智能上投资 15 亿美元

Snapchat 的开发者 Snap 表示将增加在人工智能和机器学习上的投资,调整广告业务和用户反馈,加大对机器学习、AI 和增强现实功能的投入。Snap 与亚马逊和谷歌合作进行云计算合作,计划每季度为每个日活用户投入84美分用于基础设施,年度投资约为15亿美元。

【AiBase提要:】

🔍 Snapchat加大在AI和机器学习投资,调整广告业务和用户反馈。

🚀 投资于机器学习、AI和增强现实功能,与广告业务和用户反馈紧密结合。

💡 与亚马逊和谷歌合作进行云计算合作,每季度为每个日活用户投入84美分用于基础设施。

相关话题

推荐关键词

24小时热搜

查看更多内容

大家正在看

AI生成视频,究竟有多癫狂?

用一张照片生成你的数字人