站长之家 - 业界 2024-06-03 09:46

ControlNet作者推新项目Omost 一句话变构图小作文再也不用为写提示词头疼了

站长之家（ChinaZ.com）6月3日消息:近日，ControlNet的作者推出了一个全新的项目——Omost。这个项目对现有图像模型的提示词理解有着巨大的帮助。通过很短的提示词，就可以生成非常详细并且空间表现很准确的图片。

Omost通过预定义的位置、偏移量和区域三大参数来简化图像元素的描述。这使得用户能够更直观地指定图像中各个元素的位置和大小，从而生成高质量、符合预期的图像。

使用Omost，你只需要输入简单的提示词，LLM就可以生成图像每个区域的简单提示和位置信息。然后针对图像九宫格的简单提示词继续扩展，保证了每一部分都有非常详细的描述。

比如，我输入创建一个梦幻的空中城堡，然后它给我返回了一段非常详细的图像描述:

这张照片展示了一座漂浮在高空的梦幻空中城堡，
“城堡完全由玻璃和闪闪发光的金属制成，反射出耀眼的阳光。”，
“精致的桥梁连接着各种塔，每座塔都装饰着复杂的雕刻和发光的符文。”，
“城堡周围的天空是柔和柔和色调的渐变，从黎明的粉红色过渡到黄昏的蓝色。”，
“下面是郁郁葱葱的森林、波光粼粼的河流和连绵起伏的山丘。”，
“整个场景笼罩在一种神奇的氛围中，柔和空灵的光束照亮了城堡，营造出一种奇妙和迷人的感觉。”

然后点击生成图像，它就会将上面的提示转化为图像返给你:

效果还不错。我们也可以将提示词复制到MJ中生成。效果如下:

更牛逼的是，Omost已经完成的图像整体布局可以保留，如果你想修改画面中的某个元素，也只需要一句提示词即可。比如你原来的画面主体是龙，你可以直接把龙变成恐龙。

项目亮点:

自动扩展提示词:Omost能够将简单的提示词拆解成详细的描述，从图像整体到局部元素的位置和大小均能详细说明。例如输入“a funny cartoon batman fights joker”，系统会生成蝙蝠侠与小丑战斗的完整图像。
高灵活性:生成的图像布局可以保留，用户可以通过简单的提示词对图像中的某个元素进行修改。比如，将龙变成恐龙，系统会根据新提示生成修改后的图像。
图像位置编码:Omost通过将图像划分为729个不同的位置来简化图像元素的描述。每个位置包括预定义的参数，如位置、偏移量和区域，确保图像生成的准确性和细致度。
子提示系统:所有Omost LLM都经过训练，可以提供严格定义的“子提示”，这些子提示可以独立描述事物，并任意组合形成完整的提示。这种设计提高了提示词的灵活性和准确性。
注意力操纵:Omost使用注意力分数调整技术来控制图像生成过程中的区域关注度，实现更精细的图像生成。通过调整注意力分数，Omost能够生成符合提示词描述的图像元素。
提示前缀树:Omost引入提示前缀树技术，通过合并子提示来改进提示理解和描述。例如，可以将路径“a cat and a dog. the cat on the sofa”作为提示，从而生成相应图像。

Omost的实现和使用

Omost项目基于Llama3和Phi3变体模型，用户可以通过提供简单的提示词来生成复杂的图像。以下是该项目的几个关键组件:

位置和偏移量:将图像划分为9个位置，每个位置进一步划分为81个偏移量，共有729个边界框，用于描述图像元素的位置。
distance_to_viewer和HTML_web_color_name:用于调整图像元素的视觉表现，通过组合这些参数可以生成粗略的图像构图。
注意力操纵:基于注意力分数操作的baseline渲染器，通过调整注意力分数来控制不同区域的模型关注度。

应用和前景

Omost技术的推出，不仅简化了提示词的编写，还提高了图像生成的精确度和灵活性。其应用场景包括但不限于AI绘画、图像设计、广告创意、教育等领域。用户可以通过简单的提示词生成复杂的图像，为创意设计提供了强大的工具支持。

项目页:https://top.aibase.com/tool/omost

试玩地址:https://huggingface.co/spaces/lllyasviel/Omost

24小时热搜

热
4.53万次阅读
1 沙特申博宣传片真是中国拍的网友：这风格意境是中国的手笔
70991次阅读
2 南方人东北购物被店主语气“凶哭”：文化差异导致误解
58002次阅读
3 女子下班回家发现家门口被贴U盘：新型诈骗手段？
39073次阅读
4 爸爸送娃撂下就走结果学校没开门：交警协助联系安全返家
37434次阅读
热
3.23万次阅读
5 宗庆后在黄金地段为员工建廉租房：从不裁45岁以上员工我算有钱
30095次阅读
荐 2020年高通骁龙CPU排名高通骁龙888排名领先
35420次阅读

查看更多内容

首页

IT业界

热点视频

站长资讯

好物榜

更多分类

更多主题

ControlNet作者推新项目Omost 一句话变构图小作文再也不用为写提示词头疼了

推荐关键词

24小时热搜

大家正在看

Meta 发布可以检查其他 AI 模型工作的 AI 模型

RTX 加速AI 创作，开启AI 商业设计速度革命！

Meta发布新AI模型：可自查和审查其他AI模型工作

《Ai Vpet / 守护与智友》AI桌宠竞赛第二期火热开启！

共启AI体育服务新篇章极光GPTBots.ai携手QSTP孵化新星sKora Tech

AI日报：海螺AI上线图生视频功能；天工AI搜索新增彩页，还打算带你赚钱；ChatGPT新版灰测

AI安全新突破！阿里云实现Confidential AI全栈覆盖

TWS耳机的进化，加入屏幕和AI真的有用吗

10秒钟复刻AI付航吐槽一切，这就是现在最好的TTS声音克隆。

AI日报：Pika 1.5又上线4个新特效；英伟达推超快AI图像生成模型Sana；Mistral AI推超强边缘AI模型Ministral 8B

当电视不再是电视，长虹AI TV把科幻电影变为现实

《Ai Vpet/守护与智友》：动漫更新，智能提醒，精彩不停歇

销售易智能产品负责人王超辉做客IT桔子AI专题沙龙：CRM+AI让销售更容易

大神卡帕西安利爆火AI应用，称「或是下一个ChatGPT」

AI电视多见，真正的AI电视少有

AI电视浪潮之下：用户需要的是AI，还是电视？

超便携专业AI大师本带来生产力跃升，联想ThinkPad P1 AI 2024 AI元启版上市

AI日报：Meta发布Llama3.2模型及Orion AR眼镜；Sora迎来大升级；全新Notion AI发布

新闻集团起诉Perplexity：使用AI大量非法复制其版权作品

Meta的新眼镜Orion，就是下一代消费级AI设备的“GPT3时刻”

首页

IT业界

热点视频

站长资讯

好物榜

更多分类

更多主题

ControlNet作者推新项目Omost 一句话变构图小作文 再也不用为写提示词头疼了

推荐关键词

24小时热搜

大家正在看

Meta 发布可以检查其他 AI 模型工作的 AI 模型

RTX 加速AI 创作，开启AI 商业设计速度革命！

Meta发布新AI模型：可自查和审查其他AI模型工作

《Ai Vpet / 守护与智友》AI桌宠竞赛第二期火热开启！

共启AI体育服务新篇章 极光GPTBots.ai携手QSTP孵化新星sKora Tech

AI日报：海螺AI上线图生视频功能；天工AI搜索新增彩页，还打算带你赚钱；ChatGPT新版灰测

AI安全新突破！阿里云实现Confidential AI全栈覆盖

TWS耳机的进化，加入屏幕和AI真的有用吗

10秒钟复刻AI付航吐槽一切，这就是现在最好的TTS声音克隆。

AI日报：Pika 1.5又上线4个新特效；英伟达推超快AI图像生成模型Sana；Mistral AI推超强边缘AI模型Ministral 8B

当电视不再是电视，长虹AI TV把科幻电影变为现实

《Ai Vpet/守护与智友》：动漫更新，智能提醒，精彩不停歇

销售易智能产品负责人王超辉做客IT桔子AI专题沙龙：CRM+AI让销售更容易

大神卡帕西安利爆火AI应用，称「或是下一个ChatGPT」

AI电视多见，真正的AI电视少有

AI电视浪潮之下：用户需要的是AI，还是电视？

超便携专业AI大师本带来生产力跃升，联想ThinkPad P1 AI 2024 AI元启版上市

AI日报：Meta发布Llama3.2模型及Orion AR眼镜；Sora迎来大升级；全新Notion AI发布

新闻集团起诉Perplexity：使用AI大量非法复制其版权作品

Meta的新眼镜Orion，就是下一代消费级AI设备的“GPT3时刻”

ControlNet作者推新项目Omost 一句话变构图小作文再也不用为写提示词头疼了

共启AI体育服务新篇章极光GPTBots.ai携手QSTP孵化新星sKora Tech