TextCraftor: Your Text Encoder Can be Image Quality Controller

标题：TextCraftor：一种新方法提升文本到图像生成模型的性能

随着文本到图像生成模型如Stable Diffusion在内容生成领域取得显著进展，一种名为TextCraftor的新方法被提出，旨在改进这些模型的性能。尽管已有技术取得了一定的成功，但生成的图像与输入文本不匹配的问题仍然存在。

当前的文本到图像生成方法面临的挑战包括需要多次运行和精心设计的提示词才能生成令人满意的图像。TextCraftor提出了一种微调预训练文本编码器的方法，通过这种方式可以显著提高图像质量和文本-图像对齐度。

TextCraftor的核心方法是微调文本编码器，而不是替换现有的CLIP文本编码器。这一过程涉及使用奖励函数，如美学模型和文本-图像对齐评估模型，来优化编码器的性能。

此外，TextCraftor还支持通过插值不同的文本编码器来实现可控的图像生成，为用户提供更多自定义生成内容的灵活性。与此同时，TextCraftor的方法与UNet微调技术是正交的，可以结合使用以进一步提升生成质量。

通过一系列的实验，TextCraftor在定量基准和人类评估中均表现出显著的改进。这项研究展示了通过微调文本编码器可以显著提升文本到图像生成模型的性能，而无需增加额外的计算和存储开销。TextCraftor为解决生成图像与文本不匹配的问题提供了一个有效的技术途径。

内部参考网