AI视野：英伟达推文生图模型ConsiStory；高度可控AI试衣OOTDiffusion；开发者推SoraWebui开源项目；Groq最快AI推理芯片成本推算高得离谱

欢迎来到【AI视野】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。

新鲜AI产品点击了解：https://top.aibase.com/

🤖📱💼AI应用

英伟达推出免训练，可生成连贯图片的文生图模型ConsiStory

【AiBase提要:】
⭐️ 多数文生图模型使用随机采样模式，导致生成图像不连贯
⭐️ AI生成连贯图像连环画难度大，现有模型效果有限
⭐️ ConsiStory是一种免训练连贯文生图模型，可提升图像一致性和连贯性
论文地址:https://arxiv.org/abs/2402.03286

OOTDiffusion:一个高度可控的虚拟服装试穿AI工具

【AiBase提要:】
⭐️ 高度可控的虚拟服装试穿工具
⭐️ 按性别和体型自动调整，与模特身形贴合
⭐️ 支持半身模型和全身模型，试穿效果自然逼真
项目地址:https://top.aibase.com/tool/ootdiffusion
试玩地址:https://ootd.ibot.cn/

Sora还没正式开放有开发者已经搞出了SoraWebui

【AiBase提要:】
🚀 Sora因视频生成效果惊艳火爆出圈，但仍在内测阶段，多数用户只能看。
🛠️ SoraWebui开源项目提前研究，模拟API接口字段实现，为未来上线做准备。
🔗 开源项目支持Vercel一键部署，便于开发者使用和测试。
项目地址:https://top.aibase.com/tool/sorawebui

Adobe推类ChatGPT助手AI Assistant 并集成到PDF中

【AiBase提要:】
⭐ Adobe推出生成式AI助手AI Assistant
⭐ AI Assistant类似于ChatGPT，提供摘要、核心见解
⭐ 用户可通过AI生成引擎验证答案来源，提升Reader和Acrobat的商业价值

谷歌AI推出ScreenAI:用于UI和信息图解读的视觉语言模型

【AiBase提要:】
⭐️GoogleAI团队推出了ScreenAI，一个视觉语言模型。
⭐️ScreenAI在多个任务上表现出色，包括图形问答和摘要生成。
⭐️发布了三个新数据集，为未来研究提供更多资源。
论文地址:https://arxiv.org/abs/2402.04615

FreeControl:无需训练即可控制任何文本到图像扩散模型的空间控制方法

【AiBase提要:】
⭐️支持多个条件、架构和检查点同时进行控制生成
⭐️通过结构和外观引导，实现对生成图像的控制
⭐️展示了 T2I 扩散模型进行可控生成的定性结果
项目网址:https://top.aibase.com/tool/freecontrol

Comfyui更新Stable Cascade 7个模型整合为两个模型文件

【AiBase提要:】
⭐ 简化操作流程，用户只需选择C和B阶段的模型文件
⭐ 提高用户便利性，更新后生成的图片质量和美观度显著提升
⭐ 但更新带来伪影问题，期待官方修复，提升用户体验
项目地址:https://top.aibase.com/tool/stable-cascade
工作流及模型下载:https://comfyanonymous.github.io/ComfyUI_examples/stable_cascade/

Reddit大佬开发GLIGEN GUI 可指定图像大小、位置等

【AiBase提要:】
⭐️ GLIGEN GUI让用户可以控制生成图像的大小、位置和元素之间的空间关系
⭐️ GLIGEN可以根据自然语言描述生成高质量的图像
⭐️ GLIGEN提供灵活性和创造性，让用户创造惊人的图像作品
GLIGEN GUI项目地址:https://top.aibase.com/tool/gligen-gui
GLIGEN项目地址:https://top.aibase.com/tool/gligen

目标检测跟踪模型YOLOv8能快速识别和定位多个对象

【AiBase提要:】
⭐ YOLOv8是一种先进的目标检测跟踪模型
⭐ 支持多种格式部署，提高了模型的可用性和兼容性
⭐ 适用于多种领域，包括安防监控、医疗图像分析、自动驾驶等
项目地址:https://top.aibase.com/tool/yolov8

FiT:一种全新的Transformer架构图像生成模型分辨率和高宽比不受限制

【AiBase提要:】
⭐ FiT将图像视为一系列可变大小的图像块（Token）
⭐ FiT在处理不同分辨率的图像方面表现出卓越性能
⭐ FiT为生成不受限制的图像提供新的解决方案
项目地址:https://top.aibase.com/tool/fit

AnyGPT:实现任意模态输入到任意模态输出

【AiBase提要】
⚙️ 采用离散表示技术，实现多模态输入的统一处理
🔄 灵活性: 可稳定训练并轻松集成新模态
🎭 实用性: 生成大规模多模态指令数据集，实现任意多模态对话
产品入口:https://top.aibase.com/tool/any-gpt-

📰🤖📢AI新鲜事

Groq最快AI推理芯片成本推算高得离谱运行LIama2得1171万美元

【AiBase提要:】
⚙️ Groq公司推出AI芯片与英伟达GPU性价比对比
💰 运行LIama2所需成本高达1171万美元
🔎 分析师评估成本效益，Groq需面对英伟达竞争
项目入口:https://top.aibase.com/tool/groq

马斯克X平台与Midjourney正商谈合作致力于生成式AI项目

【AiBase提要】
⚙️ Elon Musk的X与Midjourney商谈合作，可能推动生成式人工智能项目。
🧠 可能合作在选举前识别X平台上的GenAI内容，推动人工智能技术应用。
🌐 Midjourney的生成式AI计划可根据自然语言描述生成图像，与其他项目类似。

B站UP主让AI修习春山学视频播放量近200万

【AiBase提要:】
⭐️ 央视春晚《上春山》引发热议，UP主让AI修习春山学。
⭐️ AI识别节目表演者面部情绪，实时显示在视频中。
⭐️ AI情绪识别技术或带来更多便利和乐趣。

ChatGPT源码推荐：小狐狸ChatGPT付费创作系统完全开源源码

首页

IT业界

热点视频

站长资讯

好物榜

更多分类

更多主题

AI视野：英伟达推文生图模型ConsiStory；高度可控AI试衣OOTDiffusion；开发者推SoraWebui开源项目；Groq最快AI推理芯片成本推算高得离谱

推荐关键词

24小时热搜

大家正在看

深圳NEPCON电子展圆满落幕，镭晨科技新品备受瞩目

新加坡泰益丰建筑有限公司（Thai Yee Hong Contractor Pte ltd）纳斯达克上市启动仪式圆满落幕

Apple Silicon 才是苹果在AI上的“一盘大棋”

苹果高管解密：从架构到设计，Apple Silicon芯片的成功之道

AI日报：智谱AI发布AutoGLM升级版；Kimi灰测AI视频生成功能；SD3.5L新增三大ControlNet功能；ChatGPT诞生两周年

HTX亮相Bitcoin MENA：深化中东市场战略布局

Checkout.com 宣布正式进军日本市场，为全球业务布局再添一翼

《鸣潮》对谈全球支付公司Checkout.com：跨端游戏出海如何吃透支付优化？

GitCode光引计划有奖征文大赛：汇聚开发者智慧，共筑开源未来

果搜搜App Store 投放决策平台正式发布，决策力再升级！

PICO OS 升级，一大波新功能来了

AI日报：OpenAI推出每月200美元ChatGPT Pro;京东发布10大AI营销工具;ComfyUI插件被植入挖矿病毒

绿舟&正浩EcoFlow，移动储能独角兽的低碳之路

从北京到上海，果搜搜App Store 投放决策平台持续点燃App增长新动力

ORICO奥睿科mini系列：Mac mini存储扩展的高性价比方案

全球化战略再升级：BYDFi 成为韩国 CODE VASP 联盟重要成员

让AI激发创作！首届豆包MarsCode AI编程挑战赛报名开启

阿里国际版o1来了，Marco-o1：聚焦开放式问题推理

英特尔®至强®6处理器：E-core（能效核）引领云规模工作负载新时代

荣耀200系列/Magic Vs2/Magic4系列开启MagicOS 9.0公测