0%

📌home目录下只放代码源程序;训练日志、模型权重文件、数据集放在data目录下
每个服务器可能有data,data1,data2目录,使用df -h查询剩余空间大的目录,创建自己的“姓名”目录使用。

📌自行安装使用miniconda管理自己的python环境

📌pip install gpustat,使用gpustat查看无人使用的卡进行使用,每个人最多使用两张卡,投稿期间和特殊情况除外;
尽量避免别人在使用,但是在显存没有占满的卡上跑实验,会严重影响速度。

📌使用vscode登录使用服务器,参考:https://blog.csdn.net/zhuwenyan1234567/article/details/126928074

自己下载的研究方向内原始数据集联系吴瑞泽更新此页面。

阅读全文 »

Self-similarity Prior Distillation for Unsupervised Remote Physiological Measurement

【rPPG】【arxiv】【paper】【code

abstract

  本文提出了一种新的 rPPG 自监督结构,相对于对比学习强调的正负样本,本文更关注 rPPG 信号的自相似性,这种自相似性可以看做周期性,所谓的“分层蒸馏”也是正样本对的一种形式。尽管对比学习本身没有明确的缺点,但有些文章喜欢通过和对比学习划清界限显得自己很 novel。事实上本文也用到了正样本对,并且由于没有负样本的有效性监督,需要指出本文提出的 SSPD 结构在逻辑上无法避免模型的模式崩溃。

overview

image-20231113120946140

阅读全文 »

BoxSnake: Polygonal Instance Segmentation with Box Supervision

【segmentation】【ICCV2023】【paper】【code

abstract

  本文首次仅使用 box-level anno 监督 polygon-level 分割,在假设(1.物体边界通常有像素变化;2.在物体 box 的邻域内,物体内外区域像素应分布均匀)成立下,提出了针对两个假设进行约束的损失函数,使 box-level 的分割可以细化至 polygon-level 的分割。

overview

image-20231110094336781

阅读全文 »

Contactless Pulse Estimation Leveraging Pseudo Labels and Self-Supervision

【rPPG】【ICCV2023】【paper】【code not available

abstract

  本文提出了一种使用伪标签监督辅助对比学习的无监督范式,使用 2SR 生成伪标签并通过课程式学习逐步平衡伪标签监督和对比学习。关于伪标签监督是多网络学习在 rPPG 的一种成功迁移。需要指出本文将视频 $x$ 转化为了 STMap,但在之后多次用到 $\phi(x)$,难免造成模型直接处理视频的误会。

overview

image-20231109185005424

阅读全文 »

Non-Contrastive Unsupervised Learning of Physiological Signals from Video

【rPPG】【CVPR2023】【paper】【code

abstract

  本文基于 PPG 信号的三个特征,提出了一种非对比学习的自监督方法用于 rPPG 测量,虽然作者强调了没有针对 rPPG 进行独特的网络设计,但是三种特征均为 PPG 信号强相关的,并且这项工作实际上可以看做“基于负样本和先验约束的对比学习”。需要指出:作者认为在同 batch 内的 PSD 之和应当分布均匀,这是显然不成立的,即使考虑 batch size 可以很大并且视频经过数据增强,在统计学意义上 PSD 之和仍应该服从正态分布。

overview

image-20231109105443684

阅读全文 »

Long-Tailed Multi-Label Visual Recognition by Collaborative Training on Uniform and Re-balanced Samplings

【长尾识别】【ICCV2021】【paper】【code未开源

摘要

  本文提出了一种双分支网络,分别对均匀采样和重平衡采样的数据进行处理,对于每个网络的结果分别计算带有样本数先验的分类误差,同时为了消除两个网络可能针对自己的数据集产生的过拟合问题,提出了一种交叉损失使两个网络能够具备一致性的 bias。

概览

image-20231010104505727

阅读全文 »

paper_name

【task】【conf_name】【paper】【code

abstract

overview

阅读全文 »

diffusion theories

摘要

  本文将承接上文的 DDPM,继续介绍其他的扩散模型理论,以及对扩散模型扩展的探索:

  • SMLD(NIPS2019):Generative modeling by estimating gradients of the data distribution
  • SDE(ICLR2021):Score-Based Generative Modeling through Stochastic Differential Equations
阅读全文 »

Human Pose as Compositional Tokens

【姿态检测】【CVPR2023】【paper】【code

摘要

  本文观察到在存在遮挡情况下的姿态检测案例中会出现被遮挡部分的不合理现象,因此引入 VQVAE 框架以尽可能在遮挡情况下获得近真实的姿态。整体思路非常简单,关键在于其 VQVAE 部分实际上是对姿态坐标 $(17,2)$ 的重建,这样少量的信息能够被真实有效重建,其中必然包含了特殊设计(姿态转化为 M 个 token)以及漫长的调试。

概览

image-20230504105458592

阅读全文 »

Long Video Generation with Time-Agnostic VQGAN and Time-Sensitive Transformer

【长视频生成】【ECCV2022】【paper】【code

摘要

  本文提出了一种遵循 VQGAN+transformer 架构的长视频生成方法,通过对以往的方法在自回归生成长视频的探索,本文提出了两个见解:1.3D-VQGAN 在自编码时为了获得对应 shape 而进行的时间维度上的 zero padding 是长视频生成崩溃的原因,2.在一定的范围内(如生成 1k 帧),直接用自回归进行视频生成会产生很长的时间注意力(因为计算了 $p(z_{1000}|z_{1:999})$),这也可能是导致崩溃的原因。据此本文提出了一些改动,形成了对时间不敏感(Time-Agnostic)的 VQGAN,和对时间敏感 (Time-Sensitive)的 transformer。

概览

image-20230419101038411

阅读全文 »