xyfJASON

Sublime Text 配置

官网下载 Sublime Text 4 官网链接：https://www.sublimetext.com/ 安装 Package Control 简介：Package Control 是管理 Sublime Text 插件的插件，以后下载其他插件可以通过它来下载。下载：cmd+shift+p 打开 command palette，输入 Install Package Control，回车。使用

2023-09-09

技术博客 > 技术栈

变分扩散模型

由于扩散模型存在多种解释角度，并且有很多人在研究它，因此大家用的推导体系和书写符号或多或少有一些差异。在 Google 的这两篇论文中——Variational Diffusion Models[1]、Progressive Distillation for Fast Sampling of Diffusion Models[2]，作者将信噪比显式地写入了扩散模型的公式之中，并由此引出了对可学习噪

2023-08-08

技术博客 > 生成模型 > Diffusion Models

#generative models

Diffusion+VAE

近期有几篇工作不约而同地都尝试了结合 Diffusion Models 与 VAE，尽管它们的动机并不相同。本文首先以一个结合 Diffusion 与 AE 的工作为引入，然后推导 Diffusion + VAE 的基本框架，再在这个基本框架下分别介绍相关的工作。 Diffusion + AE 在与 VAE 结合之前，论文[1]提出了 Diffusion Autoencoders，结合了 Diff

2023-07-29

技术博客 > 生成模型 > Diffusion Models

#generative models

[Stable Diffusion]训练你的LoRA(Linux)

简介 LoRA 是一种参数高效微调方法（PEFT），最早由 LoRA: Low-Rank Adaptation of Large Language Models 提出并应用于微调语言大模型之中，后来由 Low-rank Adaptation for Fast Text-to-Image Diffusion Fine-tuning 引入到对 Stable Diffusion 模型的微调之中。LoRA

2023-06-21

技术博客 > AIGC

#generative models #AIGC #stable diffusion

[Stable Diffusion]模型概览(v1~v2)

前置代码库官方 GitHub 仓库：基于 Latent Diffusion 仓库搭建，常用于科研人员做基于 Stable Diffusion 的实验和开发。 Stable Diffusion v2.0 ~ v2.1: https://github.com/Stability-AI/StableDiffusion Stable Diffusion v1.1 ~ v1.5: https://

2023-06-16

技术博客 > AIGC

#generative models #AIGC #stable diffusion

[Stable Diffusion]webui部署(Linux)

Github: https://github.com/AUTOMATIC1111/stable-diffusion-webui 更新日志 webui 项目更新频繁，不能保证本文内容仍然适用于后续版本。 2024.01.22：更新至 webui v1.7.0 版本 (commit hash 为 cf2772f) 2023.06.14：文章首次发布，基于 v1.3.2 版本 (commit ha

2023-06-14

技术博客 > AIGC

#generative models #AIGC #stable diffusion

StyleGAN 系列

StyleGAN 如果要说 StyleGAN 的最大的贡献，无疑是改变了传统的生成器架构，通过把隐变量分层引入到 backbone 网络，揭示了网络的各层能够控制生成图像的不同抽象程度的语义，从而在一定程度上实现了无监督特征解耦。另外，作者提出的 FFHQ 数据集也是一个很大的贡献，在之后的生成模型研究乃至 low-level vision 领域中都经常用到。网络架构设计在 StyleGAN

2023-06-08

技术博客 > 生成模型 > GANs

#generative models

Midjourney 调研

官网 | 文档特别说明：本文展示的所有图片都经过了大幅度的缩小和压缩处理，并非原图。模型版本使用 --version 或 --v 参数来指定版本。 v5.2：该版本有更好的颜色、对比度和结构，有略微更好的文本理解能力。对 --stylize 参数响应度更高。特别地，如果不想要 Midjourney 的默认审美风格，可以加参数 --style

2023-06-03

技术博客 > AIGC

#generative models #AIGC

Calculus of Variations

泛函的概念众所周知，函数是数到数的映射——输入为数值 \(x\)，输出为数值 \(y(x)\). 将函数的概念进行扩展，定义泛函 (functional) 为函数到数的映射——输入为函数 \(y(x)\)，输出为数值 \(F[y]\). 直观地讲，泛函就是“函数的函数”。 Example 1：给定平面上的两点 \((x_1,y_1),(x_2,y_2)\)，穿过它们的路径有无数条。对其中某条路径

2023-04-25

技术博客 > 机器学习

#machine learning

Vector-Quantization

VQ-VAE VQ-VAE[1] 是 Google DeepMind 在 2017 年提出的一个类 VAE 生成模型，相比普通的 VAE，它有两点不同：隐空间是离散的，通过 VQ (Vector Quantization) 操作实现；先验分布是学习出来的。为什么要用离散的隐空间呢？首先，离散的表征更符合一些模态的自然属性，比如语言、语音，而图像也能用语言描述；其次，离散表征更适合推理、规

2023-03-29

技术博客 > 计算机视觉

#generative models

扩散模型应用·可控生成

封面来自 CivitAI. GLIGEN University of Wisconsin-Madison Columbia University Microsoft 2023.01.17 ControlNet Stanford ICCV 2023 best paper 2023.02.10 尽管文生图大模型的出现让人们能够用自然语言方便地创作，但是文本的控制粒度终究还是比较粗糙，我们希望引入更

2023-02-11

技术博客 > 生成模型 > Diffusion Models (Applications)

#computer vision #generative models

扩散模型应用·个性化生成

封面来自 CivitAI. 个性化生成（personalized generation），也称作主体驱动生成（subject-driven generation），指的是用户提供若干张（甚至只有一张）某主体（人或物）的照片，模型生成该主体其他图像。 Textual Inversion Tel Aviv University NVIDIA 2022.08.02 顾名思义，Textual Inve

2023-02-11

技术博客 > 生成模型 > Diffusion Models (Applications)

#computer vision #generative models

扩散模型应用·寻找语义空间

\[ \newcommand{\x}{\mathbf x} \] 封面来自 CivitAI. Diffusion Autoencoders CVPR 2022 2021.11.30 尽管扩散模型的生成效果非常好，但是它缺乏有语义的隐空间，给一些下游应用带来了麻烦。即便是 DDIM 的确定性采样过程，其隐空间，即 \(\x_T\) 所在空间也不理想，典型表现就是 DDIM 的插值结果并不是平滑变

2023-02-11

技术博客 > 生成模型 > Diffusion Models (Applications)

#computer vision #generative models

扩散模型逆向过程的方差选取

\[ \newcommand{\x}{\mathbf x} \newcommand{\calN}{\mathcal N} \newcommand{\E}{\mathbb E} \] DDPM 的方差选取问题在从VAE到DDPM中，我们遗留了一个问题——为什么 DDPM 要取 \(p_\theta(\x_{t-1}\vert\x_t)\) 的方差 \(\sigma_t^2\) 为 \(\tilde

2023-01-14

技术博客 > 生成模型 > Diffusion Models

#generative models

扩散模型应用·基于文本的图像编辑

\[ \newcommand{\x}{\mathbf x} \] 封面来自 CivitAI. DiffusionCLIP CVPR 2022 2021.10.06 DiffusionCLIP[1] 旨在用文本编辑图像，之前人们常使用 GAN inversion + CLIP 来做这个任务，但是作者指出 GAN inversion 的能力有限，难以重建原图中在训练集里不常见的部分（比如文章开篇大

2023-01-05

技术博客 > 生成模型 > Diffusion Models (Applications)

#computer vision #generative models

扩散模型应用·文生图大模型

\[ \newcommand{\x}{\mathbf x} \] 封面来自 CivitAI. GLIDE OpenAI 2021.12.20 GLIDE[1] 是 OpenAI 在 2021 年底推出的文本引导图像生成的扩散模型。GLIDE 沿用了 ADM[2] 架构，但是更大，有 2.3 billion 参数。为了向其中注入文本条件，作者首先将输入文本通过 BPE tokenizer 编码成

2023-01-05

技术博客 > 生成模型 > Diffusion Models (Applications)

#computer vision #generative models

扩散模型应用·图生图与图像恢复

\[ \newcommand{\x}{\mathbf x} \] 封面来自 CivitAI. 图生图可以泛指基于输入图像生成新图像的过程，因此诸如 image restoration（超分、去噪、填充、上色等）、image-to-image translation、style transfer 等任务都可以归为其中。特别地，本文不包括基于文本的图像编辑方法，相关内容可在扩散模型应用·基于文本的

2023-01-05

技术博客 > 生成模型 > Diffusion Models (Applications)

#computer vision #generative models

扩散模型的条件引导生成

\[ \newcommand{\x}{\mathbf x} \newcommand{\calN}{\mathcal N} \newcommand{\coloneqq}{\mathrel{\mathrel{\vcenter{:}}=}} \] Preface 我们在之前的文章中关注的都是无条件生成，生成结果不受我们控制，特别是以 DDPM 为代表的采样过程本身就带有随机性的模型，即使用同样的初始变量

2022-12-29

技术博客 > 生成模型 > Diffusion Models

#generative models

不止去噪！任意退化模式上的扩散模型

\[ \newcommand{\x}{\mathbf x} \newcommand{\E}{\mathbb E} \newcommand{\calN}{\mathcal N} \newcommand{\I}{\mathbf I} \newcommand{\coloneqq}{\mathrel{\mathrel{\vcenter{:}}=}} \] Cold Diffusion 站在 machine

2022-12-17

技术博客 > 生成模型 > Diffusion Models

#generative models

DDIM与加速采样

\[ \newcommand{\x}{\mathbf x} \newcommand{\I}{\mathbf I} \newcommand{\calN}{\mathcal N} \newcommand{\E}{\mathbb E} \] DDPM Recap 前向过程设有一列 noise schedule：\(\{\beta_t\}_{t=1}^T\)，记 \(\alpha_t=1-\beta_t

2022-12-14

技术博客 > 生成模型 > Diffusion Models

#generative models