随着FLUX模型的发布,LLM的使用变得更加普遍,因为该模型能够通过T5和CLIP_L模型的结合来理解自然语言。然而,大多数法学硕士都需要较大的 VRAM,并且其返回的结果并未针对图像提示进行优化。我最近训练了 PromptGen v1,并从社区获得了很多很好的反馈,我刚刚发布了 PromptGen v1.5,这是基于您的许多反馈的重大升级。另外,1.5版本是专门为了解决我上面提到的Flux时代的问题而训练的模型。 PromptGen基于微软Florence2基础模型进行训练,因此模型大小仅为1G,可以光速生成字幕,并且使用更少的VRAM。 PromptGen v1.5 可以在 1 个模型下以 5 种不同模式处理图像标题:danbooru 样式标签、一行图像描述、结构化标题、详细标题和混合标题,每种模式处理提示中的特定场景

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。