您好,创建了这个高级字幕工作流程和系统指令来为图像批次生成 Flux 字幕。由于 Flux 使用两个文本编码器 Clip L(77 个标记)和 T5(256 个标记),我实现了两个字幕流。 T5 的 NL pass 和 Clip L 的逗号 seq Pass。这种双重方法不仅可以实现灵活的提示,还可以通过为每个图像添加两个标题来最大限度地利用小数据集。无论您的目标是详细、自然的语言描述还是简洁、高效的序列,此设置都能满足您的需求。重要提示:如果您正在深入研究此工作流程,请不要忘记将 OpenAI API 密钥添加到根文件夹中以运行 GPT-4O 组件。如果您使用两个标题方法,请不要忘记在开始标题过程之前复制图像更新:对于所有开源骗子,我添加了 Joycap、florence 和 wd14 tagger。享受
声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。