CSY's blog

Anchor_based_colorization

发表于 2023-02-11 更新于 2023-02-14 分类于 paper ， cv Valine：
本文字数： 3.6k 阅读时长 ≈ 3 分钟

Disentangled Image Colorization via Global Anchors

【图像上色】【TOG2022】【paper】【code】

摘要

对于图像上色问题，其具备两个特性：1. 任意像素点的色彩值具备不确定性，2.逻辑上属于同一个物体的像素点在上色之后应当具有一致性。归结来看，第一个特性即为色彩分布，需要预测一个具体切合理的色彩分布概率，这个问题可以转化为颜色分类问题，第二个特性即为空间一致性，需要一个可以用于区分不同位置色彩是否一致的数据，这个问题可以转化为聚类问题。本文从上述两个特性入手，一方面使用SPixNet等方法对图像进行分割，并将分割的子“超像素”进行聚类从而解决空间一致性，另一方面在同类的“超像素”上应用分类器预测出的色彩值。

概览

阅读全文 »

CodeFormer

发表于 2023-02-09 分类于 paper ， cv Valine：
本文字数： 5.2k 阅读时长 ≈ 5 分钟

Towards Robust Blind Face Restoration with Codebook Lookup Transformer

【盲人脸重建】【NIPS2022】【paper】【code】

摘要

本文借鉴 VQGAN 的思想细化了其应用领域并进行了启发式的改造，将条件生成限制到盲人脸重建，通过增加 CFT 模块优化过度平滑的问题，并且将采样器去掉，作为必选项在重建图像时优化隐编码。由于 CFT 模块可选，因此在一定程度上避免了如 GPEN 的跳跃连接，防止过差的 LQ 影响重建质量。其本质与其说参考了更多的盲图重建工作，倒不如说参考了 VQ 系列的工作。

概览

阅读全文 »

GPEN

发表于 2023-02-07 更新于 2023-02-08 分类于 paper ， cv Valine：
本文字数： 1.7k 阅读时长 ≈ 2 分钟

GAN Prior Embedded Network for Blind Face Restoration in the Wild

【盲图重建】【CVPR2021】【paper】【code】

摘要

本文采用了训练好的 styleGAN2 作为先验网络嵌入到重建架构之中，重建架构使用 U-net 网络，对于 Encoder，其在降采样过程中的中间表示被送入对应的 Decoder (styleGAN2) 层作为 noise；其整体的输出作为 $z$ 经由 mapping 映射至 $w$ 输入预训练的 styleGAN2。整个网络架构均进行梯度更新。

概览

阅读全文 »

pSp

发表于 2023-01-14 更新于 2023-02-06 分类于 paper ， cv Valine：
本文字数： 1.5k 阅读时长 ≈ 1 分钟

Encoding in Style: a StyleGAN Encoder for Image-to-Image Translation

【图像生成】【CVPR2021】【paper】【code】

摘要

ds；本文就是大名鼎鼎的 pSp，相比于 image2styleGAN 的逆映射后优化的方式，本文直接提出了一种以 ResNet 为 backbone，以 FPN 为架构的编码器，可以将任意图像通过训练好的编码器映射到隐空间。实现了人脸转向、特征融合、使用素描或分割图生成不同的人脸、人脸补全、人脸条件生成、人脸超分等任务。

概览

阅读全文 »

layered-neural-atlases

发表于 2023-01-06 更新于 2023-02-06 分类于 paper ， cv ， video Valine：
本文字数： 416 阅读时长 ≈ 1 分钟

Layered Neural Atlases for Consistent Video Editing

【视频编辑】【SIGA2021】【paper】【code】

摘要

ds；本文使用基于 NeRF 的进行了视频编辑的工作。得到的模型将输入视频分为前景和背景并分别映射到两个图层。允许对背景图层或者前景图层的编辑并且一致性地传播到整个视频之中从而达到编辑视频的效果。本文除了 PSNR 之外没有其他数据指标，多为定性研究与消融实验。

概览

阅读全文 »

styleGAN

发表于 2023-01-05 更新于 2023-02-06 分类于 paper ， cv Valine：
本文字数： 4.5k 阅读时长 ≈ 4 分钟

A Style-Based Generator Architecture for Generative Adversarial Networks

【图像生成】【CVPR2019】【paper】【code】

摘要

本文基于 PGGAN 提出了一种按照尺度（非属性）解耦隐空间特征的 styleGAN 网络，这种尺度在 fine detail 上对于视觉的表现即为风格，因此除了生成和 PGGAN 一样的高分辨率图像之外，styleGAN 还可以对多个图像的不同尺度特征进行拼接，从而进行风格迁移。局限于这些特征都是 latent code，因此不能融合任意图像，但仍然挖下了解耦隐空间的坑。

概览

阅读全文 »

PGGAN

发表于 2023-01-04 更新于 2023-02-06 分类于 paper ， cv Valine：
本文字数： 2.8k 阅读时长 ≈ 3 分钟

Progressive Growing of GANs for Improved Quality, Stability, and Variation

【图像生成】【ICLR2018】【paper】【code】

摘要

本文使用逐步调大分辨率的生成方式成功生成了在当时还不错的高分辨率图像。具体来说是进行分阶段的训练，阶段按照分辨率进行分界。并且每个新的阶段要加入新的卷积层，为了防止没有经过训练的层回传梯度时影响训练好的层，本文还使用了一种平滑的融合策略。

概览

阅读全文 »

PulseGAN

发表于 2022-12-07 更新于 2023-02-06 分类于 paper ， cv ， hr Valine：
本文字数： 1.7k 阅读时长 ≈ 2 分钟

PulseGAN: Learning to generate realistic pulse waveforms in remote photoplethysmography

【心率检测】【BHI2021】【paper】【code非官方】

摘要

本文引入了一种使用 GAN 训练的网络，网络并不直接从原始视频中获得 rppg 信号，而是使用其他方法已经估计出的粗糙 rppg 信号进行细化，BHI 是生物信息期刊，这篇文章相对其他论文具备更多的专业性指标，但是实验做得很少，没有在其他数据集内验证有效性。

概览

阅读全文 »

PulseEdit

发表于 2022-12-07 更新于 2023-02-06 分类于 paper ， cv ， hr Valine：
本文字数： 2.9k 阅读时长 ≈ 3 分钟

PulseEdit: Editing Physiological Signal in Facial Videos for Privacy Protection

【心率检测】【TIFS2022】【paper】【code未开源】

摘要

本文提出了一种在不改变外观特征的情况下进行心率信号改变的方法，具体来说，使用一系列的图像处理步骤得到逐帧的像素更改区域以及更改量，直接更改 RGB 区域从而混淆估计器。区别于 privacy-phys，本文梯度更新的是扰动信号 $\delta$，而 privacy-phys 梯度直接更新结果，一致的是两篇文章都没有参数。

概览

阅读全文 »

Arbitrary_Resolution_rPPG

发表于 2022-12-06 更新于 2023-02-06 分类于 paper ， cv ， hr Valine：
本文字数： 6.4k 阅读时长 ≈ 6 分钟

Learning Motion-Robust Remote Photoplethysmography through Arbitrary Resolution Videos

【心率监测】【AAAI2023】【paper】【code】

摘要

本文针对人脸在运动过程中产生的远近问题提出了两个即插即用的模块，将远近移动的问题转化为了多分辨率下的 rppg 信号估计问题，同时使用光流解决了人脸在转动的过程中可能导致的关键点缺失问题，在选择的 baseline（physnet）上取得了一定的进步。主要包括：1. 编码了分辨率信息从而对分辨率鲁棒的 PFE 模块，2. 使用光流恢复人脸运动从而对运动鲁棒的 TFA 模块。效果确实在对比的情况下有所进步，但是确实也缺乏一个 SOTA 的结果。

概览

阅读全文 »