❤️ 如果你也关注大模型与 AI 的发展现状,且对大模型应用开发非常感兴趣,我会快速跟你分享最新的感兴趣的 AI 应用和热点信息,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦


🚀 快速阅读

  1. HiCo 是一种基于扩散模型的层次化可控布局到图像生成模型,实现对对象位置和文本描述的精确控制。
  2. HiCo 的主要功能包括层次化布局控制、对象级可控生成、多分支结构融合等。
  3. HiCo 的技术原理涉及层次化建模、对象可分离的条件分支、扩散模型和融合模块等。

正文(附运行示例)

HiCo 是什么

HiCo 是 360 AI 研究院推出的一款基于扩散模型的层次化可控布局到图像生成模型。该模型基于多分支结构设计,能够实现对对象位置和文本描述的精确控制。HiCo 的关键特点在于进行空间解耦,有效处理复杂布局,减少对象缺失和视角冲突等问题。HiCo 在自然场景的多目标可控布局生成中表现出色,并引入了 HiCo-7K 基准测试集。此外,HiCo 与快速生成插件(如 LoRA、LCM)兼容,能生成高分辨率图像。

HiCo 的主要功能

  1. 层次化布局控制:HiCo 基于层次化结构对布局进行建模,实现对背景、前景及空间关系的精细控制。
  2. 对象级可控生成:模型根据对象的文本描述和空间位置条件独立生成每个对象,确保生成图像的准确性和一致性。
  3. 多分支结构融合:多分支网络独立处理不同区域,基于融合模块(Fuse Net)合并特征,生成复杂布局的图像。
  4. 快速生成插件兼容:HiCo 与快速生成插件(如 LoRA、LCM)兼容,加速图像生成过程,保持高质量输出。
  5. HiCo-7K 基准测试:引入 HiCo-7K 基准测试集,评估模型在多目标可控布局生成方面的性能。
  6. 灵活扩展性:模型支持集成不同插件或调整参数,适应不同的生成任务,如个性化生成或多语言控制。

HiCo 的技术原理

  1. 层次化建模:HiCo 用层次化结构对输入的布局信息进行建模,捕捉从粗糙到精细的空间布局细节。
  2. 对象可分离的条件分支:每个分支独立处理和生成特定区域的内容,根据对象的文本描述和空间位置条件生成图像。
  3. 扩散模型:基于扩散模型,迭代去噪过程从噪声数据中恢复出清晰的图像,用条件引导生成过程。
  4. 融合模块(Fuse Net):掩码技术分离不同前景和背景区域的内容,在合并过程中保持各自的独立性。
  5. 低秩适应(LoRA):兼容 LoRA 技术,快速适应新任务或风格,无需从头开始训练整个模型。
  6. 快速推断能力:设计快速推断机制,如 HiCo-LCM(Lightning)和 HiCo-Lightning,用并行处理和优化的网络结构加速图像生成。

如何运行 HiCo

1. 设置仓库和环境

git clone https://github.com/360CVGroup/HiCo_T2I.git
cd HiCo

conda create -n HiCo python=3.10
conda activate HiCo
pip install -r requirements.txt

2. 准备模型

# HiCo checkpoint

# stable-diffusion-v1-5
git clone https://huggingface.co/runwayml/stable-diffusion-v1-5 resources/models

3. 自定义生成

CUDA_VISIBLE_DEVICES=0

资源

  1. 项目官网:360cvgroup.github.io/HiCo_T2I/
  2. GitHub 仓库:github.com/360CVGroup/…
  3. arXiv 技术论文:arxiv.org/pdf/2410.14…

❤️ 如果你也关注大模型与 AI 的发展现状,且对大模型应用开发非常感兴趣,我会快速跟你分享最新的感兴趣的 AI 应用和热点信息,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦