0%

MAGVIT: Masked Generative Video Transformer

【视频生成】【arxiv】【paper】【code

摘要

  本文提出了一种基于 3DCNN 的 VQGAN 和多任务优化的视频生成器。其中 3DCNN 的网络由图像预训练的 2D 网络中心膨胀而来。所谓多任务优化,即通过不同的 mask 模拟不同的条件任务(包括帧插值、帧预测等十种),另外加上自重建任务进行联合优化。其中条件任务又分为:1.预测完全不存在的帧,2.预测部分存在的帧。因此第二部分可以描述为使用多任务构造损失函数联合优化 VQGAN 的下标重建 transformer。

概览

image-20230417203930207

阅读全文 »

A GOOD IMAGE GENERATOR IS WHAT YOU NEED FOR HIGH-RESOLUTION VIDEO SYNTHESIS

【视频生成】【ICLR2021】【paper】【code

摘要

  类似于 styleVideoGAN,本文也提出了一种使用预训练的 GAN 逆映射进行视频生成,区别于 styleVideoGAN,本文:1. 一种对动作隐式建模的网络结构,2. 在视频域和图像域进行判别器训练,3. 加入了对比学习的损失。总体来说,本文堆叠了很多 loss,在多个方面对网络进行了限制,取得了不错的结果。

概览

image-20230414195218786

阅读全文 »

NUWA: Visual Synthesis Pre-training for Neural visUal World creAtion

【图/视频生成】【ECCV2022】【paper】【code

摘要

  本文提出了一种统一的文本图像视频表示方法,基于此实现了全模态统一的视频/图像条件生成,值得一提的是,在本文之后,MSRA 又推出了能生成 38912 x 2048 分辨率图像的 NUWA-Infinity,以及 23 年 4 月推出了能生成 11 mins 动画的 NUWA-XL。网络使用 VQGAN 的结构,搭建了基于 transformer 的编解码器,为了解决复杂度的问题设计了 3DNA 的近邻结构。

概览

image-20230412094014616

阅读全文 »

VideoGPT: Video Generation using VQ-V AE and Transformers

【视频生成】【arXiv2021】【paper】【code

摘要

  本文使用 VQVAE 作为整体结构,第一阶段编解码器为 Conv3D,不使用 GAN 策略进行训练。同时采用 iGPT 作为第二阶段的 transformer 结构,直接对 video 进行编码,同时提出了一些训练 VQVAE 的经验,总结来说或许是趁着 iGPT 出了一个 paper,整体视觉效果和现在已经完全比不上了。

概览

image-20230411194600022

阅读全文 »

StyleVideoGAN: A Temporal Generative Model using a Pretrained StyleGAN

【人脸视频生成】【paper】【code未开源

摘要

  本文使用预训练的 styleGAN 为基础,采用类似 pSp 的架构进行 $\mathcal W+$ 空间的视频序列监督,同时采用基于 GRU 架构的 RNN 网络自回归生成视频,为了避免视频生成时的片段重复现象,提出了“梯度角惩罚”。另外本文展示了效果不太好的“偏移技巧”,即将生成视频的运动转移到不同的主题。

概览

image-20230410151337116

阅读全文 »

Exploration into Translation-Equivariant Image Quantization

【VQGAN探索】【ICASSP(CCF_B)】【paper】【code未开源】

摘要

  本文提出了在 VQ 的时候由于码本中不同编码的堆叠,可能导致性能的下降以及平移等变性的缺失,因此以一种很简单的方式消除了堆叠,具体来说,即加入正交化损失,通过强制 codebook 正交化减少堆叠。

概览

image-20230330092831822

阅读全文 »

transformer_implements

摘要

  在 视频行为识别 / 视频实例分割 / 视频超分辨率 等领域具备一定效果的 transformer backbone

概览

  • TeViT
  • UniFormer
阅读全文 »

Disentangled Image Colorization via Global Anchors

【图像上色】【TOG2022】【paper】【code

摘要

  对于图像上色问题,其具备两个特性:1. 任意像素点的色彩值具备不确定性,2.逻辑上属于同一个物体的像素点在上色之后应当具有一致性。归结来看,第一个特性即为色彩分布,需要预测一个具体切合理的色彩分布概率,这个问题可以转化为颜色分类问题,第二个特性即为空间一致性,需要一个可以用于区分不同位置色彩是否一致的数据,这个问题可以转化为聚类问题。本文从上述两个特性入手,一方面使用SPixNet等方法对图像进行分割,并将分割的子“超像素”进行聚类从而解决空间一致性,另一方面在同类的“超像素”上应用分类器预测出的色彩值。

概览

image-20230211202429399

阅读全文 »

Towards Robust Blind Face Restoration with Codebook Lookup Transformer

【盲人脸重建】【NIPS2022】【paper】【code

摘要

  本文借鉴 VQGAN 的思想细化了其应用领域并进行了启发式的改造,将条件生成限制到盲人脸重建,通过增加 CFT 模块优化过度平滑的问题,并且将采样器去掉,作为必选项在重建图像时优化隐编码。由于 CFT 模块可选,因此在一定程度上避免了如 GPEN 的跳跃连接,防止过差的 LQ 影响重建质量。其本质与其说参考了更多的盲图重建工作,倒不如说参考了 VQ 系列的工作。

概览

image-20230208213428701

阅读全文 »

GAN Prior Embedded Network for Blind Face Restoration in the Wild

【盲图重建】【CVPR2021】【paper】【code

摘要

  本文采用了训练好的 styleGAN2 作为先验网络嵌入到重建架构之中,重建架构使用 U-net 网络,对于 Encoder,其在降采样过程中的中间表示被送入对应的 Decoder (styleGAN2) 层作为 noise;其整体的输出作为 $z$ 经由 mapping 映射至 $w$ 输入预训练的 styleGAN2。整个网络架构均进行梯度更新。

概览

image-20230207141302512

阅读全文 »