腾讯宣布开源小显存版本的混元文生图模型,降低至 6G 显存即可运行,方便个人电脑本地部署。同时,混元 DiT 模型升级至 1.2 版本,图片质感与构图提升。混元 Captioner 打标模型也正式开源,支持中英文双语,优化文生图场景,能更好地理解和表达中文语义。混元 DiT 模型及插件可通过 Hugging Face Diffusers 和图形化界面 Kohya 调用,提高易用性
原文链接:《腾讯混元DiT再升级:推出6G小显存版本,支持Kohya训练》
-
开源小显存版本:
- 腾讯混元DiT推出了一个仅需6G显存即可运行的小显存版本,使得个人电脑用户也能轻松部署和使用。
-
适配Diffusers库:
- 该小显存版本以及LoRA、ControlNet等插件都已适配至Diffusers库,方便开发者使用。
-
支持Kohya训练:
- 新增对Kohya图形化界面的支持,使得开发者可以低门槛地训练个性化LoRA模型。
-
混元DiT模型升级:
- 混元DiT模型升级至1.2版本,在图片质感与构图方面有所提升。
-
混元Captioner模型开源:
- 腾讯宣布混元文生图打标模型“混元Captioner”正式开源,支持中英文双语,专门针对文生图场景优化,能提供结构化、完整和准确的图片描述。
- 腾讯宣布混元文生图打标模型“混元Captioner”正式开源,支持中英文双语,专门针对文生图场景优化,能提供结构化、完整和准确的图片描述。
-
提升数据质量:
- 混元Captioner通过注入人工标注、模型输出、公开数据等提升描述的完整性,同时注入大量背景知识,提高描述的准确性和完整性。
-
模型易用性提升:
- 腾讯混元DiT模型通过推出小显存版本、适配Kohya训练界面和升级至1.2版本,进一步降低了使用门槛,提升了图片质量。
-
混元DiT生态建设:
- 混元DiT自全面开源以来,持续建设生态,包括专属加速库、推理代码开源、LoRA和ControlNet插件等。
混元官网
https://dit.hunyuan.tencent.com/
代码
https://github.com/Tencent/HunyuanDiT
模型
https://huggingface.co/Tencent-Hunyuan/HunyuanDiT
论文
https://tencent.github.io/HunyuanDiT/asset/Hunyuan_DiT_Tech_Report_05140553.pdf