0%

The Way to my Heart is through Contrastive Learning:Remote Photoplethysmography from Unlabelled Video

【心率检测】【ICCV2021】【paper】【code

摘要

  这篇文章为了解决心率检测数据集难以采集的问题提出了一种可能的对比学习方法,并且同时缝合了能够放大 ROI 区域的显著性采样器,取得了一般的结果。实际上,这篇文章对比的 SOTA 都很有年代感,而 CVPR2021 有一篇基于 Dual-GAN 的工作在效果上已经远超这篇文章的结果,甚至是数量级级别的优势。这篇文章的结果甚至放在 20 年都毫无竞争力,基本可以说贡献仅限于某个可行的对比学习框架和一个新 loss。

概览

image-20221023100822413

阅读全文 »

Dual-GAN: Joint BVP and Noise Modeling for Remote PhysiologicalMeasurement

【心率检测】【CVPR2021】【paper】【code未开源

摘要

  本文提出了一种基于对偶 GAN 的心率预测网络,同时提出了一种解决不同 ROI 之间的噪声和 BVP 分布不一致的问题的即插即用块。并且本文网络的贡献除了效果非常好之外,对于噪声更加鲁棒。除此之外,该网络结构并不是纯 Dual-GAN,而是由三个生成器和一个判别器组成的网络,用到了回归的方式进行训练,并非无监督训练,并且全部的 G/D 基于 CNN,网络只需要在 1080Ti 上训练 10 个 epoch 即可收敛。可以说唯一的缺点是还没开源了😭

概览

image-20221026192218294

阅读全文 »

Remote Heart Rate Measurement from Highly Compressed Facial Videos: an End-to-end Deep Learning Solution with Video Enhancement

【心率检测】【ICCV2019】【paper】【code

摘要

  本文提出了一种可以加强压缩视频的网络 STVEN 和一个更有效的 rPPG 信号估计网络 rPPGNet,总共探索了包括 x264/AVC,x265/HEVC,MPEG4 三种传统压缩算法,整体的网络结构可以接受压缩后的视频并且获得在同等输入条件下相对于其他网络结构的最优解。

概览

阅读全文 »

SIMPER: SIMPLE SELF-SUPERVISED LEARNING OF PERIODIC TARGETS

【周期性信号对比学习】【arxiv】【paper】【code

摘要

  本文探索了旧有对比学习方法在周期性任务学习中的局限性,提出了一种新的周期性对比学习的代理任务,并且改进了 InfoNCE,测试了六个周期性变化的对比学习任务,和 MoCo,SimCLR,BYOL 等对比学习方法相比取得了较大的进步。(其实是个实验详实的水文,对比的这些 SOTA 都是学 ID 或者 ACTION 语义的,和 HR 等目标完全不一样)

概览

image-20221104103618517

阅读全文 »

视频理解综述-从 I3D 到 video transformers

摘要

  这篇文章将会从 I3D 接手记录近年来在视频理解领域的各个 SOTA。所有内容包括 3DCNN 和 transformer 两个大类,具体来说包含如下论文:

阅读全文 »

Two-stream convolutional networks for action recognition in videos 【视频动作识别】 NIPS2014

摘要

  双流网络是卷积神经网络在视频理解领域的第一个应用,在这之前的视频理解都是基于手工制作的特征,正是从这项工作开始,视频理解领域步入 CNN 时代。虽然早就有人尝试使用 CNN 做视频,但是效果很差,主要原因是 CNN 难以理解视频帧之间的时间变化。双流网络克服了这个问题,提出了使用光流信息代替时间变化的思路,将空间帧和光流帧按顺序输入两个不同的 CNN 网络,将得到的输出通过一个 SVM 分类器进行分类。

概览

image-20221008092010923

阅读全文 »

AN IMAGE IS WORTH 16X16 WORDS 【图像分类】 ICLR

摘要

  VIT(vision transformer) 是第一个将NLP领域的颠覆性成果——transformer成功迁移到视觉领域的工作。VIT采用了非常简单的操作使图像可以像文字序列一样输入transformer架构之中。正如题目所说,VIT将图像分为许多16x16的patch,并将这些patch视为句子中的word,将图像视为句子,几乎完全使用transformer架构完成了对CNN的超越。

概览

image-20220925105818246

阅读全文 »

Swin_Transformer_Hierarchical_Vision_Transformer_Using_Shifted_Windows 【图像分类、目标检测、语义分割】 ICCV

摘要

  SwinTransformer 同样是一篇尝试探索如何将 NLP 领域的 transformer 迁移到 CV 领域的工作,其指出,文字的密度和图像的像素密度差距较大,直接迁移如 VIT 将会产生大图像难以计算的问题,因此 swinTransformer 提出了一种层级式的计算方式,不仅将计算复杂度降低了很多,同时提取到了不同尺度的特征,解决了 VIT 的大尺寸图像处理困难、任务场景较为单一等问题。

概览

image-20220925222255645

阅读全文 »

Masked Autoencoders Are Scalable Vision Learners 【图像分类、语义分割、目标检测】 CVPR2022

摘要

  在 transformer 成功迁移到 CV 之后(VIT,swinTransformer),bert 等自监督训练的模型的迁移也开始被关注,虽然在 VIT 论文的末尾作者已经讨论了相关的可能性,但是 VIT 当时并不看好这种自监督的训练。这篇 MAE 大胆地进行了自监督训练图像的尝试,MAE 以一种非常简单的策略:遮挡某些 patch 后输入 VIT 得到隐空间表征,再通过另一个 VIT 解码全部图像,从而使 AE 学会表征语义信息。这是非常常见的 AE 训练策略,但是 MAE 做了 75% 以上的遮挡,构建了非常困难的任务场景,却得到了远超预期的结果。

概览

image-20220927100006046

阅读全文 »

Momentum_Contrast_for_Unsupervised_Visual_Representation_Learning 【目标检测、图像分割】 CVPR2020

摘要

  这篇文章实际上发布了有相当一段时间了,在两年之后的今天会看这项工作,很难不折服于 MoCo 的框架通用性、泛化性以及作者高度的前瞻性。随后作者又提出了 MoCoV2,MoCoV3,这两项工作在一定程度上就是单纯的对 MoCo 的适应性改编,尤其是 MoCoV2,几乎没有什么更新的想法,而 MoCoV3 至少发现了一些一直被人们所忽略的 VIT 的训练特性。作为相当一段时间内在对比学习领域和 SimCLR 齐名的前二名,MoCo 对对比学习问题进行了高度抽象,提出了简单又高效的改革。

概览

image-20220928213908179

阅读全文 »