0%

diffusion theories

摘要

  本文将承接上文的 DDPM,继续介绍其他的扩散模型理论,以及对扩散模型扩展的探索:

  • SMLD(NIPS2019):Generative modeling by estimating gradients of the data distribution
  • SDE(ICLR2021):Score-Based Generative Modeling through Stochastic Differential Equations
阅读全文 »

Human Pose as Compositional Tokens

【姿态检测】【CVPR2023】【paper】【code

摘要

  本文观察到在存在遮挡情况下的姿态检测案例中会出现被遮挡部分的不合理现象,因此引入 VQVAE 框架以尽可能在遮挡情况下获得近真实的姿态。整体思路非常简单,关键在于其 VQVAE 部分实际上是对姿态坐标 $(17,2)$ 的重建,这样少量的信息能够被真实有效重建,其中必然包含了特殊设计(姿态转化为 M 个 token)以及漫长的调试。

概览

image-20230504105458592

阅读全文 »

Long Video Generation with Time-Agnostic VQGAN and Time-Sensitive Transformer

【长视频生成】【ECCV2022】【paper】【code

摘要

  本文提出了一种遵循 VQGAN+transformer 架构的长视频生成方法,通过对以往的方法在自回归生成长视频的探索,本文提出了两个见解:1.3D-VQGAN 在自编码时为了获得对应 shape 而进行的时间维度上的 zero padding 是长视频生成崩溃的原因,2.在一定的范围内(如生成 1k 帧),直接用自回归进行视频生成会产生很长的时间注意力(因为计算了 $p(z_{1000}|z_{1:999})$),这也可能是导致崩溃的原因。据此本文提出了一些改动,形成了对时间不敏感(Time-Agnostic)的 VQGAN,和对时间敏感 (Time-Sensitive)的 transformer。

概览

image-20230419101038411

阅读全文 »

MAGVIT: Masked Generative Video Transformer

【视频生成】【arxiv】【paper】【code

摘要

  本文提出了一种基于 3DCNN 的 VQGAN 和多任务优化的视频生成器。其中 3DCNN 的网络由图像预训练的 2D 网络中心膨胀而来。所谓多任务优化,即通过不同的 mask 模拟不同的条件任务(包括帧插值、帧预测等十种),另外加上自重建任务进行联合优化。其中条件任务又分为:1.预测完全不存在的帧,2.预测部分存在的帧。因此第二部分可以描述为使用多任务构造损失函数联合优化 VQGAN 的下标重建 transformer。

概览

image-20230417203930207

阅读全文 »

A GOOD IMAGE GENERATOR IS WHAT YOU NEED FOR HIGH-RESOLUTION VIDEO SYNTHESIS

【视频生成】【ICLR2021】【paper】【code

摘要

  类似于 styleVideoGAN,本文也提出了一种使用预训练的 GAN 逆映射进行视频生成,区别于 styleVideoGAN,本文:1. 一种对动作隐式建模的网络结构,2. 在视频域和图像域进行判别器训练,3. 加入了对比学习的损失。总体来说,本文堆叠了很多 loss,在多个方面对网络进行了限制,取得了不错的结果。

概览

image-20230414195218786

阅读全文 »

NUWA: Visual Synthesis Pre-training for Neural visUal World creAtion

【图/视频生成】【ECCV2022】【paper】【code

摘要

  本文提出了一种统一的文本图像视频表示方法,基于此实现了全模态统一的视频/图像条件生成,值得一提的是,在本文之后,MSRA 又推出了能生成 38912 x 2048 分辨率图像的 NUWA-Infinity,以及 23 年 4 月推出了能生成 11 mins 动画的 NUWA-XL。网络使用 VQGAN 的结构,搭建了基于 transformer 的编解码器,为了解决复杂度的问题设计了 3DNA 的近邻结构。

概览

image-20230412094014616

阅读全文 »

VideoGPT: Video Generation using VQ-V AE and Transformers

【视频生成】【arXiv2021】【paper】【code

摘要

  本文使用 VQVAE 作为整体结构,第一阶段编解码器为 Conv3D,不使用 GAN 策略进行训练。同时采用 iGPT 作为第二阶段的 transformer 结构,直接对 video 进行编码,同时提出了一些训练 VQVAE 的经验,总结来说或许是趁着 iGPT 出了一个 paper,整体视觉效果和现在已经完全比不上了。

概览

image-20230411194600022

阅读全文 »

StyleVideoGAN: A Temporal Generative Model using a Pretrained StyleGAN

【人脸视频生成】【paper】【code未开源

摘要

  本文使用预训练的 styleGAN 为基础,采用类似 pSp 的架构进行 $\mathcal W+$ 空间的视频序列监督,同时采用基于 GRU 架构的 RNN 网络自回归生成视频,为了避免视频生成时的片段重复现象,提出了“梯度角惩罚”。另外本文展示了效果不太好的“偏移技巧”,即将生成视频的运动转移到不同的主题。

概览

image-20230410151337116

阅读全文 »

Exploration into Translation-Equivariant Image Quantization

【VQGAN探索】【ICASSP(CCF_B)】【paper】【code未开源】

摘要

  本文提出了在 VQ 的时候由于码本中不同编码的堆叠,可能导致性能的下降以及平移等变性的缺失,因此以一种很简单的方式消除了堆叠,具体来说,即加入正交化损失,通过强制 codebook 正交化减少堆叠。

概览

image-20230330092831822

阅读全文 »

transformer_implements

摘要

  在 视频行为识别 / 视频实例分割 / 视频超分辨率 等领域具备一定效果的 transformer backbone

概览

  • TeViT
  • UniFormer
阅读全文 »