#官方文档链接 https://dcnsxxvm4zeq.feishu.cn/wiki/XOnXwC2btiw8YDkyFQsctFAEnHf?fromScene=spaceOverview —————————– ————————————————– ————————————————- #工作流程介绍: – 该工作流程是通过加载张吕敏(ControlNet作者)力矩后的llama模型,生成一段关于图像生成的复杂指令,从而实现质量更佳的图片。 ——————- ————————————————– ———————————————————– #omost介绍:最主要的优点:生成的图像几乎就是你想要的结果;“O”代表“o​​moni”,简单多模态的意思,项目关注多地从LLM中获取能力; ——- ————————————————– ————————————————– ——— 大多数的能力:首先我们给LLM一段自然语言文本,(例如:请画一个迪士尼3D卡通风格的,身穿红色帽子的小狗厨师,眼睛是蓝色的,眉毛是白色的),然后LLM大语言视觉模型会编写代码来组合图像内容,以往大部分只是通过LLM简单的对提示词的优化和扩展。 大多数生成python代码包含了边界框、图像标签、风格氛围质量等指令,通过大部分的虚拟完成来实现。这个虚拟完成通过特定的图像生成器来实际生成我们需要的图像。 简化理解:自然语言→LLM生成python代码→将python代码转换为多个包含遮罩信息的条件信息→将多个条件信息以贪婪算法融合→生成区域可控的图像 —————————— ————————————————– ——————————————

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。