概念 大多数 MLLM 都很严肃,所以即使你要求他们描述一张图片,他们也可能不知道动漫人物的名字,而且他们完全忽略 NSFW 内容。另一方面,虽然 WD14-tagger 和 JoyTag 提供了非常具体的标签,但它们只是列出单词,无法完全解释上下文。因此,通过要求 MLLM 使用“JoyTag 询问的标签”来描述“输入图像”,您可以结合两者的优点。自定义节点 JoyTag :ComfyUI VLM 节点 InternLM-XComposer2-VL :Comfyui_image2prompt 提示 尽可能编辑“”内的标签,并生成包含图像中对象的位置信息的标题。另外我尝试了Llava1.6,但效果不佳。我认为 InternLM-XComposer2-VL 在理解提示方面具有压倒性的优势。

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。