Diffusion论文汇总
Survey of Diffusion Model Papers
Diffusion models: A comprehensive survey of methods and applications(202209 arXiv)[Paper] [Code]
北大和斯坦福等高校联合写的一篇综述,主要从DM模型改进、DM应用以及DM与其他生成模型结合三个角度进行汇总分析
A Survey on Generative Diffusion Model(202209 arXiv)[Paper] [Code]
这篇github上论文整理的挺好的
本文结合上述两篇综述对diffusion model相关论文进行整理
*表示一年以上google scholar引用量100+或者一年以内50+ (统计时间20221015)
次级标题进行补充说明 标题前的()是文章受关注后的别称
Diffusion Models Methods &Methods Improvement
Denoising Diffusion Probabilistic Models (2020 ...
text2video论文阅读简记
Text2Video: Text-driven Talking-head Video Synthesis with Personalized Phoneme - Pose Dictionary
论文连接:https://arxiv.org/abs/2104.14631
GitHub代码地址:https://github.com/sibozhang/Text2Video (只有测试代码,没有训练部分)
演示视频:https://youtu.be/d5MFzHxeOTs
任务
以任意一段文字作为输入,生成一段表情和口型自然地念出这段文字的talking-head视频
动机
本文相较于基于语音的视频生成方法的三个优势:
仅仅需要很少的训练视频就可以完成预处理训练
由于采用了TTS,模型不会受到讲话者影响
处理,训练,推断速度大幅提升
方法
方法总体概述:给定输入文本,通过百度的TTS生成对应的语音,然后通过P2FA对齐器(aligner)将语音强制对齐获得语音的音素时间戳并在音素-姿态(phoneme-pose)字典中查找对应的音素姿态(phoneme pos ...
服务器重置记录
服务器上的mysql数据库此前由于密码过于简单被渗透,假期也一直没处理,这次直接将服务器重置。本文记录了服务器重置后MySQL,docker,nginx以及搭建博客裸仓的配置过程。
语义分割常用评价指标
参考若干综述文章及相关博客整理出图像语义分割常用的评价指标并进行相关实现
新机环境安装指南
换了台新电脑,大学四年大概就重装过一次系统。后面装了好多东西和相关环境,每次都是安的时候直接百度,跟着流程走。每次配的倒也还算顺利,后面也很少出问题,所以后面就压根没写什么博客。这次换电脑,感觉所有步骤都有印象但是完全自己整有些细节确实记不大清楚,这次换了配置这么高的电脑,大概率很久不会再换了。但是免不了重装或者给别人装,所以本篇博客记录一些配置过程中的关键步骤收集一些写的较好的参考文章,有些步骤就不会特别详细。
Python环境安装
pycharm 安装
直接进入官网的下载地址: https://www.jetbrains.com/pycharm/download/#section=windows
选择免费的社区版进行下载
选择合适的路径进行安装(基本上就一路下一步)
基本的python环境+换源
我目前大多数情况下使用anaconda(后文会用这种方式),此部分具体使用未作验证谨慎参考。使用anaconda 此部分可以略过
进入python官网 https://www.python.org/downloads/
随便选一个稳定的版本下载
运行 ...
论文简记
对后面看到的一些经典的文章或者创新性和思路比较好的文章做一个简要的记录,主要记一些文章中关键内容和核心思路所以不会记得很详细。
大学美食测评篇
开个坑,记录校园美食,分享记录我的碎碎念。小美、大美、天美以及学校周边美食分享......
CV专业名词解释汇总
鉴于自己的英语水平比较一般,作为一名刚开始阅读cv领域论文的初学者,哪怕是在翻译软件的辅助下还是经常会不能准确理解作者想表达的意思,更是经常读着读着就忘了前面讲的是啥。因此这篇博客就用来记录汇总我在阅读论文过程中初次遇到或难以理解的专业词汇,方便以后的查阅
A
asymptotically 渐进地
B
backpropagation 反向传播
C
converge 收敛
D
E
F
G
H
I
J
K
L
M
N
O
P
patch 指从完整图像分割出来的块
Q
R
S
stack v. 堆叠,堆叠网络层数等
state of the art 形容在某一领域表现的非常突出,效果非常好 缩写为SOTA
T
touching cells 细胞接触,生物细胞学概念,指的是两个细胞紧邻,细胞膜贴在一起
U
V
vanilla 普通的
W
with a large margin 很大幅度,形容效果很好跟其他模型有较大的领先
X
Y
Z
U-Net论文阅读笔记
解决什么样的问题
这篇文章主要是关于利用深度卷积网络解决生物医学图像分割的问题。我们回到作者提出Unet的那个年代来看看这篇论文提出的背景,AlexNet在ImageNet大赛上优越的表现使得深度学习再次受到研究人员的重视,在此后的几年里在视觉识别的许多领域里采用类似的深度卷积网络都取得了非常不错的成果特别是图像分类任务,但是这些领域基本都有一个前提就是拥有大规模的标记数据集,这样才能保证大规模的深度网络能够被训练起来。然而在医学图像分割任务上,一方面很难拥有大规模的图像数据集,常常就几百张而已,用传统的方法基本上是训练不起来的。另一方面,图像分割任务不再是一张图片对应一个类别而是对一张图像上的每个像素都进行类别预测。大体上作者当时就是要解决这样两个核心问题。
解决问题的思路
首先是借鉴了FCN(全卷积神经网络的)的思路,FCN应该算是最先将深度学习应用在图像分割,它可以实现端到端的分割,但是它分割细节不够精确。在FCN中为了获得更全面的上下文信息是将下采样中第三第四以及最后的特征图上采样的统一大小进行融合。而作者为了获得更丰富的上下文信息选择直接将低层信息直接拼接到高层信息上来, ...
基于DL的图像分割综述论文阅读笔记
论文名称:Image Segmentation Using Deep Learning:A Survey
论文链接:https://arxiv.org/pdf/2001.05566
文章主要成果
汇总了截至2019年100多种区域分割算法并将他们分为如下十类
全卷积网络(FCN)
基于图形模型的卷积模型
编码器-解码器基础模型
基于多尺度分析的金字塔网络模型
R-CNN基础模型
膨胀卷积(空洞卷积Atours)模型和Deeplab系列
循环神经网络模型(RNN)
基于注意力机制的模型
生成模型和对抗训练(GAN)
基于主动轮廓的卷积模型
对这些基于深度学习的分割算法进行了全面的分析和总结
提供了对20多种主流图像分割领域数据集的介绍
提供了图像区域分割算法性能评价的常用指标
提出未来基于深度学习的图像分割可能存在的方向和挑战
汇总分析
因为是综述性论文,此部分内容过于庞杂,短时间内无法完全理解全部内容,因此此部分仅对我理解的或者感兴趣的进行简要描述与分析,便于后续的学习与分析
主干架构
CNNs
卷积神经网络(CNNs)可以算是深度学习领域最成功被应用最广泛的架构之一。
经 ...