对于一个开放模型而言，Ideogram 4.0 对文字和 IP 的理解简直惊人。

琪琪是头猪 · 发表于前天 12:32

正如标题所言，在无需 LoRA 辅助的开源模型中，Ideogram 4.0 对角色和 IP（知识产权）的理解能力是我见过的最强的。Ideogram 4.0 刚发布时，我曾因其初期的工作流问题和安全过滤机制而对其颇有微词；但如今这些问题都已解决，使用它让我找回了久违的创作乐趣。这些图片是在 ComfyUI 中本地生成的，分辨率为 150 万像素（具体为 1440x1024）。我使用的是 Ideogram 4.0 模型的 INT8 版本，以及 Kijai 的 KJ Nodes 自定义包中的“Ideogram 4 Prompt Builder KJ”节点。所采用的工作流来自 SilverOxide，你可以在此处找到它。更新：SilverOxide 的原版工作流已被删除，所以我对其进行了整理，去除了冗余内容，并将我自己的版本发布在了 Pastebin 上（点击此处查看）。如果你还不知道或未曾尝试过，Ideogram 4.0 在局部重绘（inpainting）方面的表现也非常出色。你可以先以较低分辨率生成图像，然后通过蒙版（mask）对人脸等区域进行局部重绘，从而优化和修正细节。我个人使用的是 ComfyUI-Inpaint-CropAndStitch 自定义节点（点击此处获取），不过大多数情况下，Ideogram 4.0 并不一定需要它。如果有人想要特定图片的提示词（prompt），请在下方评论区留言，我会直接回复在那里，以免大段的 JSON 文本占据主帖篇幅。

对于一个开放模型而言，Ideogram 4.0 对文字和 IP 的理解简直惊人。

本帖子中包含更多资源

浏览过的版块