当前位置:首页 > 教程 > 视觉次序总结(实用7篇)

视觉次序总结(实用7篇)

  • 总结
  • 2024-03-14 10:07:45
  • 150

视觉次序总结 第1篇

大部分论文在讲述的时候,都是继承之前的论文方法,因此很多细节讲的不是很清楚,一篇参考文献就一笔带过,如果没有完整的体系架构,直接看最新的文献会很乱,发现需要补充的知识越来越多,导致知识体系细碎繁杂,看完了也不知道讲的是什么。这里给出姿态估计的几篇综述文献,里面从各个角度讲述了姿态估计的一些经典方法和分类,有助于建立整个框架体系:

在写这篇文章的时候,发现了大神刚出的一篇比较好的总结,链接放到这里,供大家学习参考,可先阅读,对比和本文的异同,以作参考:

另外上面文献[5]是关于人体Mesh研究的,也是我研究的一个领域,所以把这篇综述也放了上来,同样有一张图:

建立思路:按照时间建立自己的知识体系,个人认为是一个很好的方式,感受这个领域的方法一步一步的推进过程,一点一点构建自己的知识领域框架,后面读论文不再是一行一行读,而是一块一块地读;而且可以在阅读的过程中,从后面的研究者在Related Work中对早期的文章的见解和描述,是一种感受不同人对某一方法的不同见解的过程,幸运的话甚至可以从中得到启发。从一篇文献中追根溯源,并总结流派和方法,然后再继续关注当前的最新进展,逐步完善自己的领域,是我个人认为比较好的一种科研思维。

视觉次序总结 第2篇

这篇文章提出了姿态估计的两个概念:

论文使用的数据集有两个:FLIC和LSP,评价指标分别为PDJ(=)和PCP@(=),评价指标和数据集都比较旧了,现在已经很少使用。建议大家看看上面提到的综述论文,里面有数据集和评价指标的详细总结,后期有空,可以单独写一个总结(挖坑2...)。

具体的代码可以看下面这个博文:

具体的代码和讲解可以看这个博文:

链接如下:大家可以看最新的精度和效果在MSCOCO、MPII数据集上的榜单,从而对比自己正在阅读的论文和所做的工作有多大差距。

截至写本文的时候,最好的是基于Transformer的ViTPose。《ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation》,讲解可参考下文:

视觉次序总结 第3篇

其论文可以归类为两类型:

这篇是Michael J. Black实验室的SMPL开山之作,后续的大部分SMPL方法等也是该实验出品,大部分SMPL相关论文均是这个研究所出来的。

以下必读论文来自商汤OpenMMLAB实验室的mmhuman3d项目,与之前提到的mmpose3d类似:上面有很多总结、经典以及最新方法的实现和讲解,有框架,有代码,有教程,可快速复现,而且维护和更新也很块。

[1] SMPLify (ECCV'2016):《Keep it SMPL: Automatic Estimation of 3D Human Pose and Shape from a Single Image》[2] SMPLify-X (CVPR'2019):《Expressive Body Capture: 3D Hands, Face, and Body from a Single Image》[3] HMR (CVPR'2018):《End-to-end Recovery of Human Shape and Pose》[4] SPIN (ICCV'2019):《 Learning to Reconstruct 3D Human Pose and Shapevia Model-fitting in the Loop 》[5] VIBE (CVPR'2020):《 Video lnference for Human Body Pose and Shape Estimation》[6] HybrIK (CVPR'2021):《HybrIK: A Hybrid Analytical-Neural Inverse Kinematics Solution for 3D Human Pose and Shape Estimation》[7] PARE (ICCV'2021):《PARE: Part Attention Regressor for 3D Human Body Estimation》[8] HuMoR (2021) :《3D Human Motion Model for Robust Pose Estimation》[9] DeciWatch (ECCV'2022):《DeciWatch: A Simple Baseline for 10× Efficient 2D and 3D Pose Estimation》[10] SmoothNet (ECCV'2022):《SmoothNet:A Plug-and-Play Network for Refining Human Poses in Videos》[11] ExPose (ECCV'2020):《Monocular Expressive Body Regression through Body-Driven Attention》[12]BalancedMSE (CVPR'2022):《Balanced MSE for Imbalanced Visual Regression》

对其中的部分论文作简要介绍:

CLIFF(2022):《CLIFF: Carrying Location Information in Full Frames into Human Pose and Shape Estimation》

其他的最新进展,大家可以关注3DPW这个数据集的paperswithcode榜单。

视觉次序总结 第4篇

一算整理,避免资源过多,学习凌乱; 二来帮助后人少走坑,尽量节省时间快速掌握;三来也算自己的笔记整理,方便日后查询;

撰写过程中参考了很多平台、很多大佬的博文,部分可能没有参考引用,如有侵权,请及时联系我。其中不乏错误之处,也欢迎大家批评指正,私信交流!

后续博文会发一些框架的具体知识点,以作扩充。可能更新此文,也可能是新的文章,欢迎大家持续关注!

视觉次序总结 第5篇

问题本质:3D人体姿态估计是从图片或视频中估计出关节点的三维坐标 (x, y,z),它本质上是一个回归问题。

挑战:(1)单视角下2D到3D映射中固有的深度模糊性与不适定性:因为一个2D骨架可以对应多个3D骨架,它具有在单视角下2D到3D映射中固有的深度模糊性与不适定性,这也导致了它本身就具有挑战性。(2)缺少大型的室外数据集和特殊姿态数据集:这主要由于3D姿态数据集是依靠适合室内环境的动作捕捉(MOCAP)系统构建的,而MOCAP系统需要带有多个传感器和紧身衣裤的复杂装置,在室外环境使用是不切实际的。因此数据集大多是在实验室环境下建立的,模型的泛化能力也比较差。

研究方法:3D姿态估计受限于数据集和深度估计,大部分方法还是和2D姿态估计有着非常强的联系。

感兴趣的同学可以看一下这篇CSDN的博客,有个大致了解,下面的部分内容摘自其中。当然这篇里面的分类只是一种,大家参考综述[4]里面的配图9,也可以作为一种分类,不过大家注意每种分类方法,一些重要的文献总是归在同一类别的。

基于回归[1]3D Human Pose Estimation from Monocular Images with Deep Convolutional Neural Network》(2014)[2]《VNect: Real-time 3D Human Pose Estimation with a Single RGB Camera》(ACM-2017)[3]《Coarse-to-Fine Volumetric Prediction for Single-Image 3D Human Pose》(CVPR-2017)[4]《Integral Human Pose Regression》(CVPR-2018)[5]《Camera Distance-aware Top-down Approach for 3D Multi-person Pose Estimation from a Single RGB Image》(ICCV2019)

其中3-4-5是具有相关性的三篇论文

基于2D->3D

总结:首先是做2D的人体姿态估计,然后基于Nearest neighbor最近邻的match来从training data中找最像的姿态。2D的姿态估计算法是基于CPM来做的。3D的match方法是KNN方法,先把training data中的人体3d骨架投射到2D空间,然后把test sample的2d骨架跟这些training data进行对比,最后使用最相近的2d骨架对应的3D骨架当成最后test sample点3D骨架。当training数据量非常多的时候,这种方法可能可以保证比较好的精度,但是在大部分时候,这种匹配方法的精度较粗,而且误差很大。

同样,从这个工作的名字可以看出,这个工作提出了一个比较simple的baseline,但是效果还是非常明显。方法上面来讲,就是先做一个2d skeleton的姿态估计,方法是基于Hourglass的,文章中的解释是较好的效果以及不错的速度。 基于获得的2d骨架位置后,后续接入两个fully connected的操作,直接回归3D坐标点。这个做法非常粗暴直接,但是效果还是非常明显的。在回归之前,需要对坐标系统做一些操作。

基于时序(视频序列)

视觉次序总结 第6篇

在动手做设计之前,如何构思信息的视觉层级?

回想一下我们在做汇报或演讲之前如何构思的。我们可能会先列一个大纲,梳理好先说什么后说什么,哪些要重点强调,哪些可以快速提及,等等。视觉层级的构思也应该遵循一个类似的 _大纲_。因此,本文尝试规范了一套三步式的层级构思法:拆分语义片段,描述层级结构,补充关联信息。我们会用一个案例来完整地演示一遍。

这里有一则活动通知

现在,假设我们认为这些内容已经准确且完整了,需要将其加工成一份平面海报。首先,我们必须将这段完整内容拆分为相对独立的语义片段

为什么要先拆分?因为这段话包含许多信息,但并非所有信息都同等重要。如果不进行拆分,所有信息都在同一层级,无法保证更重要的信息优先被注意到。因此,将信息拆分成更小的片段,并为每个片段分配匹配其重要性的层级,才能确保表达效果最优。在这里,我选择将这段话分为五段:讲座嘉宾、主题、时间地点联系人、费用以及最后的落款。每个段落之间用 _/_ 隔开:

你当然可以有完全不同的分法,你只需要确保遵守以下条规则:

这里的规则都是经验性的,因此可以在必要的时候挑战规则,获得惊喜的效果。我们这里暂且遵守规则,在下文 _层级与调性分离_ 一章中,我们会看到不同的可能性。

第一步的 _拆分_ 完成后,接下来我们将拆好的信息排列成层级式的结构 (hierarchical structure)。同样,我还是用 _/_ 来区分不同的层级:

这里的排列顺序是怎么定的?重要性?

注意,我们是按照 _视觉先后_ 的顺序来排的,而非信息客观上的重要性,这很关键。对于这里的活动来说,尽管时间地点在客观上可能比主题更重要,但是并不一定需要先被看到——如果活动主题无法吸引观众决定参加,可能他们就不会继续了解活动时间地点了。

所以,层级是按照观众先看什么、后看什么的顺序来决定的。如果你有充分的理由认为时间地点应该最先被看到,那么它也可以成为第一层级。因此,设计师想要确保构思合理,要去搞明白观众的兴趣和需求。观众是更熟悉主讲人Alan Cooper么?_免费_ 讲座有多大吸引力?这些都可能成为你指定谁为第一层级,谁为第二层级的依据。

(当然,我这里的例子是虚构的,因此你只要能自圆其说即可。设计师如何去了解需求并非本文探讨的内容)

一旦知道这些,划分层级的任务就初步完成了。如果想要做的更细致一些,我们还可以将一些无关紧要的内容去掉或者改写。只要语义不变,设计师大可选择自己认为最有效的表达方式。于是我们有了下面这个版本:

这里我不仅用 _/_ 区分了层级,还用数量来表示层级与层级之间需要多高的区分度;同时,我们还可以将好几个片段并列,用 _—_ 连接,表示它们同属于一个层级。这些都让我们能够更精确地描述自己构思。可以做的还很多,不过层级分析法作为一套指导应用的方法,需要是绝对高效的同时相对精准。这样的精准度已经不错了。

不过这个版本还有一个致命问题。

当我们把关键信息都各自抽离出来后,这些信息之间的关联却被我们丢失了。比如,Alan Cooper是讲座的主讲人而不是主题,在原文中有,但是上图中无法体现。因此,我们必须在已有信息的层级结构之上,补充它们之间的关联结构,这样等我们做完之后,就可以用这张图来逐一检查:每一个层级是否清晰区分,同时,每条关联是否准确实现。我用弧线来连接被关联的层级:

潜在的关联还有很多,比如 _用户画像是Alan Cooper提出的概念_ 以及 _xxx老师是活动组委会成员_ 这种其实并不太相关。具体需要在构思中补充几条,设计师根据需要自己来定。想要表达的关联越多,对于实现的要求自然也就越高,而一个明确的原则是宁可少区分一个层级或者少表达一组关联,也要保证已经表达的足够有效。

至此,我们可以认为,自己想要表达的信息层级已经规划清楚了。为了方便指代,我们将上面这样的由 _语义片段-层级结构-关联_ 三个要素组成的示意图叫做 _关联式层级图_ (interconnected hierarchical diagram)

有人会问,构思层级时一定需要使用上面这种结构图吗,为什么不用我们更熟悉的思维导图或者树状图?事实上,不同形式的结构图本质上都是由节点与连接线构成的,因此只要确保下面几个条件满足,理论上都可以用:

剩下的只是画起来有多麻烦、适不适合的问题。我这里放一个思维导图的例子。为了满足上面的条件,我们用一个节点表示信息片段 (1),用节点之间连线表示关联 (3),最后把同级节点对齐来表示层级 (2):

上面这张图,右边的关联式层级图可以用左边的思维导图很好地对应。但是如果我们想要做如下修改,比如:

那么思维导图画起来就要麻烦许多了:

注意这里,取消A、B的关联直接导致A变成了一个自由节点且不能对齐;增加D、C之间的关联后,必须要手动画一条线把D连到C上,而这种连法思维导图并不支持——很麻烦。反观右边图,并没有规则上的调整。

因此,本文提供的层级图画法是最适合的,如果各位读者有更优的做法,欢迎和我讨论。除此之外,本文的画法还有一个优势,就是可以直接用文本格式来写,无需作图。图中的结构可以直接写成如下格式:

在后面的案例里,为了便捷,我们都用这种文本的格式来表示层级构思,而这里的 _/_ _—_ _→_ 分别指代的 _分级_ _同级_ 和 _关联_,我们可以叫做层级语法 (hierarchical syntax)。定义这样的语法之后,我们就将这个层级构思的过程形式化了——形式化就让这套方法在高效、准确之上,增加可靠性 (reliability)

现在这三种语法还不齐全,我们在下午中会借助案例来做一轮拓展。

在进入案例之前,需要正式声明一点:优秀的作品除了需要考虑层级,还需要考虑视觉调性 (visual tone)。层级表达语义,调性表达情绪,两者缺一不可。而这两个谁更重要视具体场合而定,例如简历、演示PPT对于语义精准的要求大于情感表达;而概念海报、装饰壁纸则相反。当层级和调性出现冲突时,选择适当的牺牲更不重要的一方来成就另一方是很正常的事情——设计本就是一个权衡的过程。

下面我选取了两个为了调性而牺牲层级的案例。这两者的思路可以简单地概为省略压缩。先看省略的例子:

视觉次序总结 第7篇

回想当初,其他几个让我觉得离经叛道、甚至胡说八道的观点,随着时间和眼见为实的亲身经历,现在都得到了验证。

几个教授曾经的讲述:

■ 弱视治疗有时间限制,有效的时间段,是从出生到死亡前这一段,这期间,都可以尝试去治疗弱视。

■生命从开始到结束,大脑神经可塑性一直都存在。

■弱视的治疗,每天遮盖2~6小时,和全天遮盖一个效果。

所以成人弱视,大龄弱视,斜视治疗,我们一直走在分享的路上。也希望,把这份可以治疗的希望,和少走弯路的治疗方法,分享给看到文章的每一个人。

内卷太严重,鸡娃不如鸡自己,那就来读书吧。

是的,我又来推书了:

这本书,是Robert B. Sanet参与协助,Pilar Vergara Giménez历时4年完成的一本关于斜弱视治疗的科普书,书中列举了斜弱视的传统治疗方法,观念的误区,斜弱视治疗的真实案例等。