第180章 杂志封面我确实输了(2/2)

天才一秒记住本站地址:[笔趣阁]
https://www.ibqg.vip 最快更新!无广告!

意图是使用极高的帧数来作为核心卖点,这是自动驾驶等方向会比较看重的。

但在医疗领域当中,大多数时候就不会那么过度追求上百的帧数了,除非有海量的数据积压。

多数情况下需要检测的结果越精准越好,速度方面有很大的空间可以妥协。

“偏移总体的重心也不是那么容易的事情,一昧地加大模型的规模和图像的分辨率只会事倍功半。”

孟繁岐浏览了一番,医疗领域也已经有一些跟进的工作了,一些草稿公布了出来,出发点也和自己想的差不多。

将重心从速度往准确率上转移。

不过可以看出,他们的总体思路还比较简单,不得要领。

“让我给你们好好的上一课!”

孟繁岐如此想着,开始了一系列相关改进技术的研发工作。

图像的分类任务是最为简单的前向网络,一般来说,不会从中间层提取很多信息,因为目的只是为了判断类别。

但是,检测和分割的任务则不然,其中最主要的不同就是分类任务不需要定位目标在图片中的位置,检测和分割则需要提供这个信息,而且越准确越好。

检测任务需要用选框非常准确地框出目标物体在图片的何处,而分割更为精确,连精细的轮廓也要标注清楚。

出于计算量的考虑,骨干网络在处理图片的时候,通常并不会一直在极高的分辨率下进行。

一般来说,是分四个阶段,每过一个阶段,分辨率就会再小四倍(长宽都变成原本的一半)。

分辨率为256 x 256的图片输入之后,在不同阶段的特征图分辨率很可能会是[64, 32, 16, 8]。

这样成倍减少的特征图叠在一起,形成一个锥型,被称为特征金字塔。

分辨率变小的一大问题就是会丧失非常准确的位置信息,分辨率越小的特征图抽象程度越高,也就越难去表达原本图像中物体的位置。

由于这些不同尺寸的特征通常对融合后的输出特征作出了不平等的贡献,为了解决这一问题,孟繁岐计划实现一个简单而高效的加权双向特征金字塔网络(BiFPN)。

它引入可学习的权重来学习不同输入特征的重要性,同时反复应用自顶向下和自底向上的多尺度特征进行融合。

如此以来,就不需要大量增加图像的原始分辨率和算法模型的规模和参数量,用较少的额外计算量争取到了更加多的性能。