CSY's blog

diffusion models 2

发表于 2023-05-04 更新于 2023-10-09 分类于 paper ， cv Valine：
本文字数： 7.8k 阅读时长 ≈ 7 分钟

diffusion theories

摘要

本文将承接上文的 DDPM，继续介绍其他的扩散模型理论，以及对扩散模型扩展的探索：

SMLD（NIPS2019）：Generative modeling by estimating gradients of the data distribution
SDE（ICLR2021）：Score-Based Generative Modeling through Stochastic Differential Equations

阅读全文 »

pctpose

发表于 2023-05-04 分类于 paper ， cv Valine：
本文字数： 1.7k 阅读时长 ≈ 2 分钟

Human Pose as Compositional Tokens

【姿态检测】【CVPR2023】【paper】【code】

摘要

本文观察到在存在遮挡情况下的姿态检测案例中会出现被遮挡部分的不合理现象，因此引入 VQVAE 框架以尽可能在遮挡情况下获得近真实的姿态。整体思路非常简单，关键在于其 VQVAE 部分实际上是对姿态坐标 $(17,2)$ 的重建，这样少量的信息能够被真实有效重建，其中必然包含了特殊设计（姿态转化为 M 个 token）以及漫长的调试。

概览

阅读全文 »

TATS

发表于 2023-04-19 分类于 paper ， cv Valine：
本文字数： 2.1k 阅读时长 ≈ 2 分钟

Long Video Generation with Time-Agnostic VQGAN and Time-Sensitive Transformer

【长视频生成】【ECCV2022】【paper】【code】

摘要

本文提出了一种遵循 VQGAN+transformer 架构的长视频生成方法，通过对以往的方法在自回归生成长视频的探索，本文提出了两个见解：1.3D-VQGAN 在自编码时为了获得对应 shape 而进行的时间维度上的 zero padding 是长视频生成崩溃的原因，2.在一定的范围内（如生成 1k 帧），直接用自回归进行视频生成会产生很长的时间注意力（因为计算了 $p(z_{1000}|z_{1:999})$），这也可能是导致崩溃的原因。据此本文提出了一些改动，形成了对时间不敏感（Time-Agnostic）的 VQGAN，和对时间敏感（Time-Sensitive）的 transformer。

概览

阅读全文 »

MAGVIT

发表于 2023-04-17 更新于 2023-04-18 分类于 paper ， cv Valine：
本文字数： 2.6k 阅读时长 ≈ 2 分钟

MAGVIT: Masked Generative Video Transformer

【视频生成】【arxiv】【paper】【code】

摘要

本文提出了一种基于 3DCNN 的 VQGAN 和多任务优化的视频生成器。其中 3DCNN 的网络由图像预训练的 2D 网络中心膨胀而来。所谓多任务优化，即通过不同的 mask 模拟不同的条件任务（包括帧插值、帧预测等十种），另外加上自重建任务进行联合优化。其中条件任务又分为：1.预测完全不存在的帧，2.预测部分存在的帧。因此第二部分可以描述为使用多任务构造损失函数联合优化 VQGAN 的下标重建 transformer。

概览

阅读全文 »

MoCoGAN_HD

发表于 2023-04-14 分类于 paper ， cv Valine：
本文字数： 1.7k 阅读时长 ≈ 2 分钟

A GOOD IMAGE GENERATOR IS WHAT YOU NEED FOR HIGH-RESOLUTION VIDEO SYNTHESIS

【视频生成】【ICLR2021】【paper】【code】

摘要

类似于 styleVideoGAN，本文也提出了一种使用预训练的 GAN 逆映射进行视频生成，区别于 styleVideoGAN，本文：1. 一种对动作隐式建模的网络结构，2. 在视频域和图像域进行判别器训练，3. 加入了对比学习的损失。总体来说，本文堆叠了很多 loss，在多个方面对网络进行了限制，取得了不错的结果。

概览

阅读全文 »

NUWA

发表于 2023-04-12 分类于 paper ， cv Valine：
本文字数： 1.7k 阅读时长 ≈ 2 分钟

NUWA: Visual Synthesis Pre-training for Neural visUal World creAtion

【图/视频生成】【ECCV2022】【paper】【code】

摘要

本文提出了一种统一的文本图像视频表示方法，基于此实现了全模态统一的视频/图像条件生成，值得一提的是，在本文之后，MSRA 又推出了能生成 38912 x 2048 分辨率图像的 NUWA-Infinity，以及 23 年 4 月推出了能生成 11 mins 动画的 NUWA-XL。网络使用 VQGAN 的结构，搭建了基于 transformer 的编解码器，为了解决复杂度的问题设计了 3DNA 的近邻结构。

概览

阅读全文 »

videoGPT

发表于 2023-04-11 分类于 paper ， cv Valine：
本文字数： 968 阅读时长 ≈ 1 分钟

VideoGPT: Video Generation using VQ-V AE and Transformers

【视频生成】【arXiv2021】【paper】【code】

摘要

本文使用 VQVAE 作为整体结构，第一阶段编解码器为 Conv3D，不使用 GAN 策略进行训练。同时采用 iGPT 作为第二阶段的 transformer 结构，直接对 video 进行编码，同时提出了一些训练 VQVAE 的经验，总结来说或许是趁着 iGPT 出了一个 paper，整体视觉效果和现在已经完全比不上了。

概览

阅读全文 »

styleVideoGAN

发表于 2023-04-10 分类于 paper ， cv Valine：
本文字数： 2.4k 阅读时长 ≈ 2 分钟

StyleVideoGAN: A Temporal Generative Model using a Pretrained StyleGAN

【人脸视频生成】【paper】【code未开源】

摘要

本文使用预训练的 styleGAN 为基础，采用类似 pSp 的架构进行 $\mathcal W+$ 空间的视频序列监督，同时采用基于 GRU 架构的 RNN 网络自回归生成视频，为了避免视频生成时的片段重复现象，提出了“梯度角惩罚”。另外本文展示了效果不太好的“偏移技巧”，即将生成视频的运动转移到不同的主题。