wuxiaojun commited on
Commit
8ccffaf
·
verified ·
1 Parent(s): f112992

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +1 -1
README.md CHANGED
@@ -27,7 +27,7 @@ The surge in text-to-image models like Google's Imagen, OpenAI's DALL-E 3, and S
27
 
28
  # 模型训练 Model Training
29
 
30
- ![Taiyi-Diffusion-XL训练过程](imgs/overview_00.png)
31
 
32
  Taiyi-Diffusion-XL文生图模型训练主要包括了3个阶段。首先,我们制作了一个高质量的图文对数据集,每张图片都配有详细的描述性文本。为了克服网络爬取数据的局限性,我们使用先进的视觉-语言大模型生成准确描述图片的caption。这种方法丰富了我们的数据集,确保了相关性和细节。然后,我们从预训练的英文CLIP模型开始,为了更好地支持中文和长文本我们扩展了模型的词表和位置编码,通过大规模双语数据集扩展其双语能力。训练涉及对比损失函数和内存高效的方法。最后,我们基于Stable-Diffusion-XL,替换了第二阶段获得的text encoder,在第一阶段获得的数据集上进行扩散模型的多分辨率、多宽高比训练。
33
 
 
27
 
28
  # 模型训练 Model Training
29
 
30
+ ![Taiyi-Diffusion-XL训练过程](imgs/overview.png)
31
 
32
  Taiyi-Diffusion-XL文生图模型训练主要包括了3个阶段。首先,我们制作了一个高质量的图文对数据集,每张图片都配有详细的描述性文本。为了克服网络爬取数据的局限性,我们使用先进的视觉-语言大模型生成准确描述图片的caption。这种方法丰富了我们的数据集,确保了相关性和细节。然后,我们从预训练的英文CLIP模型开始,为了更好地支持中文和长文本我们扩展了模型的词表和位置编码,通过大规模双语数据集扩展其双语能力。训练涉及对比损失函数和内存高效的方法。最后,我们基于Stable-Diffusion-XL,替换了第二阶段获得的text encoder,在第一阶段获得的数据集上进行扩散模型的多分辨率、多宽高比训练。
33