当前位置：首页 > 教程 > 视觉次序总结(实用7篇)

视觉次序总结(实用7篇)

总结
2024-03-14 10:07:45
427

视觉次序总结第1篇

大部分论文在讲述的时候，都是继承之前的论文方法，因此很多细节讲的不是很清楚，一篇参考文献就一笔带过，如果没有完整的体系架构，直接看最新的文献会很乱，发现需要补充的知识越来越多，导致知识体系细碎繁杂，看完了也不知道讲的是什么。这里给出姿态估计的几篇综述文献，里面从各个角度讲述了姿态估计的一些经典方法和分类，有助于建立整个框架体系：

在写这篇文章的时候，发现了大神刚出的一篇比较好的总结，链接放到这里，供大家学习参考，可先阅读，对比和本文的异同，以作参考：

另外上面文献[5]是关于人体Mesh研究的，也是我研究的一个领域，所以把这篇综述也放了上来，同样有一张图：

建立思路：按照时间建立自己的知识体系，个人认为是一个很好的方式，感受这个领域的方法一步一步的推进过程，一点一点构建自己的知识领域框架，后面读论文不再是一行一行读，而是一块一块地读；而且可以在阅读的过程中，从后面的研究者在Related Work中对早期的文章的见解和描述，是一种感受不同人对某一方法的不同见解的过程，幸运的话甚至可以从中得到启发。从一篇文献中追根溯源，并总结流派和方法，然后再继续关注当前的最新进展，逐步完善自己的领域，是我个人认为比较好的一种科研思维。

视觉次序总结第2篇

这篇文章提出了姿态估计的两个概念：

论文使用的数据集有两个：FLIC和LSP，评价指标分别为PDJ(=)和PCP@(=)，评价指标和数据集都比较旧了，现在已经很少使用。建议大家看看上面提到的综述论文，里面有数据集和评价指标的详细总结，后期有空，可以单独写一个总结(挖坑2...)。

具体的代码可以看下面这个博文：

具体的代码和讲解可以看这个博文：

链接如下：大家可以看最新的精度和效果在MSCOCO、MPII数据集上的榜单，从而对比自己正在阅读的论文和所做的工作有多大差距。

截至写本文的时候，最好的是基于Transformer的ViTPose。《ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation》，讲解可参考下文：

视觉次序总结第3篇

其论文可以归类为两类型：

这篇是Michael J. Black实验室的SMPL开山之作，后续的大部分SMPL方法等也是该实验出品，大部分SMPL相关论文均是这个研究所出来的。

以下必读论文来自商汤OpenMMLAB实验室的mmhuman3d项目，与之前提到的mmpose3d类似：上面有很多总结、经典以及最新方法的实现和讲解，有框架，有代码，有教程，可快速复现，而且维护和更新也很块。

[1] SMPLify (ECCV'2016):《Keep it SMPL: Automatic Estimation of 3D Human Pose and Shape from a Single Image》[2] SMPLify-X (CVPR'2019):《Expressive Body Capture: 3D Hands, Face, and Body from a Single Image》[3] HMR (CVPR'2018):《End-to-end Recovery of Human Shape and Pose》[4] SPIN (ICCV'2019):《 Learning to Reconstruct 3D Human Pose and Shapevia Model-fitting in the Loop 》[5] VIBE (CVPR'2020):《 Video lnference for Human Body Pose and Shape Estimation》[6] HybrIK (CVPR'2021):《HybrIK: A Hybrid Analytical-Neural Inverse Kinematics Solution for 3D Human Pose and Shape Estimation》[7] PARE (ICCV'2021):《PARE: Part Attention Regressor for 3D Human Body Estimation》[8] HuMoR (2021) :《3D Human Motion Model for Robust Pose Estimation》[9] DeciWatch (ECCV'2022):《DeciWatch: A Simple Baseline for 10× Efficient 2D and 3D Pose Estimation》[10] SmoothNet (ECCV'2022):《SmoothNet:A Plug-and-Play Network for Refining Human Poses in Videos》[11] ExPose (ECCV'2020):《Monocular Expressive Body Regression through Body-Driven Attention》[12]BalancedMSE (CVPR'2022):《Balanced MSE for Imbalanced Visual Regression》

对其中的部分论文作简要介绍：

CLIFF（2022）:《CLIFF: Carrying Location Information in Full Frames into Human Pose and Shape Estimation》

其他的最新进展，大家可以关注3DPW这个数据集的paperswithcode榜单。

视觉次序总结第4篇

一算整理，避免资源过多，学习凌乱；二来帮助后人少走坑，尽量节省时间快速掌握；三来也算自己的笔记整理，方便日后查询；

撰写过程中参考了很多平台、很多大佬的博文，部分可能没有参考引用，如有侵权，请及时联系我。其中不乏错误之处，也欢迎大家批评指正，私信交流！

后续博文会发一些框架的具体知识点，以作扩充。可能更新此文，也可能是新的文章，欢迎大家持续关注！

视觉次序总结第5篇

问题本质：3D人体姿态估计是从图片或视频中估计出关节点的三维坐标 (x, y，z)，它本质上是一个回归问题。

挑战：（1）单视角下2D到3D映射中固有的深度模糊性与不适定性：因为一个2D骨架可以对应多个3D骨架，它具有在单视角下2D到3D映射中固有的深度模糊性与不适定性，这也导致了它本身就具有挑战性。（2）缺少大型的室外数据集和特殊姿态数据集：这主要由于3D姿态数据集是依靠适合室内环境的动作捕捉（MOCAP）系统构建的，而MOCAP系统需要带有多个传感器和紧身衣裤的复杂装置，在室外环境使用是不切实际的。因此数据集大多是在实验室环境下建立的，模型的泛化能力也比较差。

研究方法：3D姿态估计受限于数据集和深度估计，大部分方法还是和2D姿态估计有着非常强的联系。

感兴趣的同学可以看一下这篇CSDN的博客，有个大致了解，下面的部分内容摘自其中。当然这篇里面的分类只是一种，大家参考综述[4]里面的配图9，也可以作为一种分类，不过大家注意每种分类方法，一些重要的文献总是归在同一类别的。

基于回归[1]《3D Human Pose Estimation from Monocular Images with Deep Convolutional Neural Network》(2014)[2]《VNect: Real-time 3D Human Pose Estimation with a Single RGB Camera》(ACM-2017)[3]《Coarse-to-Fine Volumetric Prediction for Single-Image 3D Human Pose》（CVPR-2017）[4]《Integral Human Pose Regression》（CVPR-2018）[5]《Camera Distance-aware Top-down Approach for 3D Multi-person Pose Estimation from a Single RGB Image》(ICCV2019)

其中3-4-5是具有相关性的三篇论文

基于2D->3D

总结：首先是做2D的人体姿态估计，然后基于Nearest neighbor最近邻的match来从training data中找最像的姿态。2D的姿态估计算法是基于CPM来做的。3D的match方法是KNN方法，先把training data中的人体3d骨架投射到2D空间，然后把test sample的2d骨架跟这些training data进行对比，最后使用最相近的2d骨架对应的3D骨架当成最后test sample点3D骨架。当training数据量非常多的时候，这种方法可能可以保证比较好的精度，但是在大部分时候，这种匹配方法的精度较粗，而且误差很大。

同样，从这个工作的名字可以看出，这个工作提出了一个比较simple的baseline，但是效果还是非常明显。方法上面来讲，就是先做一个2d skeleton的姿态估计，方法是基于Hourglass的，文章中的解释是较好的效果以及不错的速度。基于获得的2d骨架位置后，后续接入两个fully connected的操作，直接回归3D坐标点。这个做法非常粗暴直接，但是效果还是非常明显的。在回归之前，需要对坐标系统做一些操作。

基于时序（视频序列）

视觉次序总结第6篇

在动手做设计之前，如何构思信息的视觉层级？

回想一下我们在做汇报或演讲之前如何构思的。我们可能会先列一个大纲，梳理好先说什么后说什么，哪些要重点强调，哪些可以快速提及，等等。视觉层级的构思也应该遵循一个类似的 _大纲_。因此，本文尝试规范了一套三步式的层级构思法：拆分语义片段，描述层级结构，补充关联信息。我们会用一个案例来完整地演示一遍。

这里有一则活动通知

现在，假设我们认为这些内容已经准确且完整了，需要将其加工成一份平面海报。首先，我们必须将这段完整内容拆分为相对独立的语义片段。

为什么要先拆分？因为这段话包含许多信息，但并非所有信息都同等重要。如果不进行拆分，所有信息都在同一层级，无法保证更重要的信息优先被注意到。因此，将信息拆分成更小的片段，并为每个片段分配匹配其重要性的层级，才能确保表达效果最优。在这里，我选择将这段话分为五段：讲座嘉宾、主题、时间地点联系人、费用以及最后的落款。每个段落之间用 _/_ 隔开：

你当然可以有完全不同的分法，你只需要确保遵守以下条规则：

这里的规则都是经验性的，因此可以在必要的时候挑战规则，获得惊喜的效果。我们这里暂且遵守规则，在下文 _层级与调性分离_ 一章中，我们会看到不同的可能性。

第一步的 _拆分_ 完成后，接下来我们将拆好的信息排列成层级式的结构 (hierarchical structure)。同样，我还是用 _/_ 来区分不同的层级：

这里的排列顺序是怎么定的？重要性？

注意，我们是按照 _视觉先后_ 的顺序来排的，而非信息客观上的重要性，这很关键。对于这里的活动来说，尽管时间地点在客观上可能比主题更重要，但是并不一定需要先被看到——如果活动主题无法吸引观众决定参加，可能他们就不会继续了解活动时间地点了。

所以，层级是按照观众先看什么、后看什么的顺序来决定的。如果你有充分的理由认为时间地点应该最先被看到，那么它也可以成为第一层级。因此，设计师想要确保构思合理，要去搞明白观众的兴趣和需求。观众是更熟悉主讲人Alan Cooper么？_免费_ 讲座有多大吸引力？这些都可能成为你指定谁为第一层级，谁为第二层级的依据。

(当然，我这里的例子是虚构的，因此你只要能自圆其说即可。设计师如何去了解需求并非本文探讨的内容)

一旦知道这些，划分层级的任务就初步完成了。如果想要做的更细致一些，我们还可以将一些无关紧要的内容去掉或者改写。只要语义不变，设计师大可选择自己认为最有效的表达方式。于是我们有了下面这个版本：

这里我不仅用 _/_ 区分了层级，还用数量来表示层级与层级之间需要多高的区分度；同时，我们还可以将好几个片段并列，用 _—_ 连接，表示它们同属于一个层级。这些都让我们能够更精确地描述自己构思。可以做的还很多，不过层级分析法作为一套指导应用的方法，需要是绝对高效的同时相对精准。这样的精准度已经不错了。

不过这个版本还有一个致命问题。

当我们把关键信息都各自抽离出来后，这些信息之间的关联却被我们丢失了。比如，Alan Cooper是讲座的主讲人而不是主题，在原文中有，但是上图中无法体现。因此，我们必须在已有信息的层级结构之上，补充它们之间的关联结构，这样等我们做完之后，就可以用这张图来逐一检查：每一个层级是否清晰区分，同时，每条关联是否准确实现。我用弧线来连接被关联的层级：

潜在的关联还有很多，比如 _用户画像是Alan Cooper提出的概念_ 以及 _xxx老师是活动组委会成员_ 这种其实并不太相关。具体需要在构思中补充几条，设计师根据需要自己来定。想要表达的关联越多，对于实现的要求自然也就越高，而一个明确的原则是宁可少区分一个层级或者少表达一组关联，也要保证已经表达的足够有效。

至此，我们可以认为，自己想要表达的信息层级已经规划清楚了。为了方便指代，我们将上面这样的由 _语义片段-层级结构-关联_ 三个要素组成的示意图叫做 _关联式层级图_ (interconnected hierarchical diagram)

有人会问，构思层级时一定需要使用上面这种结构图吗，为什么不用我们更熟悉的思维导图或者树状图？事实上，不同形式的结构图本质上都是由节点与连接线构成的，因此只要确保下面几个条件满足，理论上都可以用：

剩下的只是画起来有多麻烦、适不适合的问题。我这里放一个思维导图的例子。为了满足上面的条件，我们用一个节点表示信息片段 (1)，用节点之间连线表示关联 (3)，最后把同级节点对齐来表示层级 (2)：

上面这张图，右边的关联式层级图可以用左边的思维导图很好地对应。但是如果我们想要做如下修改，比如：

那么思维导图画起来就要麻烦许多了：

注意这里，取消A、B的关联直接导致A变成了一个自由节点且不能对齐；增加D、C之间的关联后，必须要手动画一条线把D连到C上，而这种连法思维导图并不支持——很麻烦。反观右边图，并没有规则上的调整。

因此，本文提供的层级图画法是最适合的，如果各位读者有更优的做法，欢迎和我讨论。除此之外，本文的画法还有一个优势，就是可以直接用文本格式来写，无需作图。图中的结构可以直接写成如下格式：

在后面的案例里，为了便捷，我们都用这种文本的格式来表示层级构思，而这里的 _/_ _—_ _→_ 分别指代的 _分级_ _同级_ 和 _关联_，我们可以叫做层级语法 (hierarchical syntax)。定义这样的语法之后，我们就将这个层级构思的过程形式化了——形式化就让这套方法在高效、准确之上，增加可靠性 (reliability)

现在这三种语法还不齐全，我们在下午中会借助案例来做一轮拓展。

在进入案例之前，需要正式声明一点：优秀的作品除了需要考虑层级，还需要考虑视觉调性 (visual tone)。层级表达语义，调性表达情绪，两者缺一不可。而这两个谁更重要视具体场合而定，例如简历、演示PPT对于语义精准的要求大于情感表达；而概念海报、装饰壁纸则相反。当层级和调性出现冲突时，选择适当的牺牲更不重要的一方来成就另一方是很正常的事情——设计本就是一个权衡的过程。

下面我选取了两个为了调性而牺牲层级的案例。这两者的思路可以简单地概为省略、压缩。先看省略的例子：