正文

视觉算法工程师培训（视觉算法工程师培训课程）

发布时间：2023-07-01 19:59:44 稿源：创意岭阅读： 1110

大家好！今天让创意岭的小编来大家介绍下关于视觉算法工程师培训的问题，以下是小编对此问题的归纳整理，让我们一起来看看吧。

本文目录:

1、加入百度视觉算法工程师得需要什么用
2、计算机视觉算法工程师常见面试题2
3、计算机视觉算法工程师常见面试题1
4、机器视觉方面工程师在公司里具体要做哪些事情？需要掌握哪些知识

一、加入百度视觉算法工程师得需要什么用

1.算法工程师要求很高的数学水平和逻辑思维。其实语言是次要的，语言只是表达的方式而已。2 你想成为算法工程师还需要一定的英文水准，因为看中文书你完全体会不到原滋味。3 不要太拘泥于教材。高数，线性代数，离散数学，数据结构

二、计算机视觉算法工程师常见面试题2

上采样upsampling的主要目的是放大图像，几乎都是采用内插值法，即在原有图像像素的基础上，在像素点值之间采用合适的插值算法插入新的元素。

线性插值法是指使用连接两个已知量的直线来确定在这个两个已知量之间的一个未知量的值的方法。

假设已知两个坐标(x0,y0)和(x1,y1)，要得到[x0,x1]区间内某一位置x在直线上的值。

该直线的方程可表示为：

这样

双线性插值是插值算法中的一种，是线性插值的扩展。利用原图像中目标点四周的四个真实存在的像素值来共同决定目标图中的一个像素值，其核心思想是在两个方向分别进行一次线性插值。

已知的红色数据点和待插值的绿色数据点

假如我们想得到未知函数f在点P= (x,y) 的值，假设我们已知函数f在

四个点的值。

在x与y方向上，z值成单调性特性的应用中，此种方法可以做外插运算，即可以求解Q11~Q22所构成的正方形以外的点的值。

总结：线性插值法利用原图像中两个点计算像素值进行插值，双线性插值法利用原图像中四个点计算目标像素值进行插值。

这是最简单的一种插值方法，不需要计算，在待求象素的四邻象素中，将距离待求象素最近的邻象素灰度赋给待求象素。设i+u, j+v(i, j为正整数， u, v为大于零小于1的小数，下同)为待求象素坐标，则待求象素灰度的值 f(i+u, j+v)　如下图所示：

如果(i+u, j+v)落在A区，即u<0.5, v<0.5，则将左上角象素的灰度值赋给待求象素，同理，落在B区则赋予右上角的象素灰度值，落在C区则赋予左下角象素的灰度值，落在D区则赋予右下角象素的灰度值。

最邻近元法计算量较小，但可能会造成插值生成的图像灰度上的不连续，在灰度变化的地方可能出现明显的锯齿状。

双线性内插法是利用待求象素四个邻象素的灰度在两个方向上作线性内插。

如下图所示：

对于 (i, j+v)，f(i, j) 到 f(i, j+1) 的灰度变化为线性关系，则有：

f(i, j+v) = [f(i, j+1) - f(i, j)] * v + f(i, j)

同理对于 (i+1, j+v) 则有：

f(i+1, j+v) = [f(i+1, j+1) - f(i+1, j)] * v + f(i+1, j)

从f(i, j+v) 到 f(i+1, j+v) 的灰度变化也为线性关系，由此可推导出待求象素灰度的计算式如下：

f(i+u, j+v) = (1-u) * (1-v) * f(i, j) + (1-u) * v * f(i, j+1) + u * (1-v) * f(i+1, j) + u * v * f(i+1, j+1)

双线性内插法的计算比最邻近点法复杂，计算量较大，但没有灰度不连续的缺点，结果基本令人满意。它具有低通滤波性质，使高频分量受损，图像轮廓可能会有一点模糊。

该方法利用三次多项式S(x)求逼近理论上最佳插值函数sin(x)/x, 其数学表达式为：

待求像素(x, y)的灰度值由其周围16个灰度值加权内插得到，如下图：

待求像素的灰度计算式如下：

f(x, y) = f(i+u, j+v) = ABC

其中:

三次曲线插值方法计算量较大，但插值后的图像效果最好。

三、计算机视觉算法工程师常见面试题1

参考： https://www.zhihu.com/column/c_1170719557072326656

反卷积也称为转置卷积，如果用矩阵乘法实现卷积操作，将卷积核平铺为矩阵，则转置卷积在正向计算时左乘这个矩阵的转置WT，在反向传播是左乘W，与卷积操作刚好相反，需要注意的是，反卷积不是卷积的逆运算。

[知乎问题+caffe实现]

实现上采样；近似重构输入图像，卷积层可视化。

只要激活函数选择得当，神经元的数量足够，至少有一个隐含层的神经网络可以 逼近闭区间上任意一个连续函数到任意指定的精度。

判别模型，直接输出类别标签，或者输出类后验概率p(y|x)

[ https://www.zhihu.com/question/268906476]

[ https://zhuanlan.zhihu.com/p/40024110]

[ https://zhuanlan.zhihu.com/p/159189617]

BN是在 batch这个维度上进行归一化，GN是计算channel方向每个group的均值方差.

检测结果与 Ground Truth 的交集比上它们的并集，即为检测的准确率 IoU

内存/显存占用；模型收敛速度等

Hessian矩阵是n*n，在高维情况下这个矩阵非常大，计算和存储都是问题。

mini-batch太小会导致收敛变慢，太大容易陷入sharp minima，泛化性不好。

可以把dropout看成是一种ensemble方法，每次做完dropout相当于从原网络中找到一个更瘦的网络。

pooling操作虽然能增大感受野，但是会丢失一些信息。空洞卷积在卷积核中插入权重为0的值，因此每次卷积中会skip掉一些像素点；

空洞卷积增大了卷积输出每个点的感受野，并且不像pooling会丢失信息，在图像需要全局信息或者需要较长sequence依赖的语音序列问题上有着较广泛的应用。

表达式为：

使用BN的原因是网络训练中每一层不断改变的参数会导致后续每一层输入的分布发生变化，而学习的过程又要使每一层去适应输入的分布，因此不得不降低网络的学习率，并且要小心得初始化（internal covariant shift）

如果仅通过归一化方法使得数据具有零均值和单位方差，则会降低层的表达能力（如使用Sigmoid函数时，只使用线性区域）

BN的具体过程（注意第三个公式中分母要加上epsilon）

最好的解释是通过1 * 1卷积核能实现多个channel间的解耦合，解耦cross-channel correlation和spatial correlation。

【但是因为解耦不彻底，因此后续有了mobile net的组卷积方式和shuffle net组卷积方式】

由于 1×1 并不会改变 height 和 width，改变通道的第一个最直观的结果，就是可以将原本的数据量进行增加或者减少。改变的只是 height × width × channels 中的 channels 这一个维度的大小而已。

1*1卷积核，可以在保持feature map尺度不变的（即不损失分辨率）的前提下大幅增加非线性特性（利用后接的非线性激活函数），把网络做的很deep。

备注：一个filter对应卷积后得到一个feature map，不同的filter(不同的weight和bias)，卷积以后得到不同的feature map，提取不同的特征，得到对应的specialized neuron。

例子：使用1x1卷积核，实现降维和升维的操作其实就是channel间信息的线性组合变化，3x3，64channels的卷积核后面添加一个1x1，28channels的卷积核，就变成了3x3，28channels的卷积核，原来的64个channels就可以理解为跨通道线性组合变成了28channels，这就是通道间的信息交互

注意：只是在channel维度上做线性组合，W和H上是共享权值的sliding window

并不能说明这个模型无效导致模型不收敛的原因可能有

A. 在实际场景下，应尽量使用ADAM，避免使用SGD

B. 同样的初始学习率情况下，ADAM的收敛速度总是快于SGD方法

C. 相同超参数数量情况下，比起自适应的学习率调整方式，SGD加手动调节通常会取得更好效果

D. 同样的初始学习率情况下，ADAM比SGD容易过拟合

A.保证每一层的感受野不变，网络深度加深，使得网络的精度更高

B.使得每一层的感受野增大，学习小特征的能力变大

C.有效提取高层语义信息，且对高层语义进行加工，有效提高网络准确度

D.利用该结构有效减轻网络的权重

A.计算简单

B.非线性

C.具有饱和区

D.几乎处处可微

【relu函数在0处是不可微的。】

A.Adam的收敛速度比RMSprop慢

B.相比于SGD或RMSprop等优化器，Adam的收敛效果是最好的

C.对于轻量级神经网络，使用Adam比使用RMSprop更合适

D.相比于Adam或RMSprop等优化器，SGD的收敛效果是最好的

【SGD通常训练时间更长，容易陷入鞍点，但是在好的初始化和学习率调度方案的情况下，结果更可靠。如果在意更快的收敛，并且需要训练较深较复杂的网络时，推荐使用学习率自适应的优化方法。】

A.使用ReLU做为激活函数，可有效地防止梯度爆炸

B.使用Sigmoid做为激活函数，较容易出现梯度消失

C.使用Batch Normalization层，可有效的防止梯度爆炸

D.使用参数weight decay，在一程度上可防止模型过拟合

对结果存疑。认为二者皆可防止。

A.SGD

B.FTRL

C.RMSProp

D.L-BFGS

L-BFGS（Limited-memory BFGS，内存受限拟牛顿法）方法：

所有的数据都会参与训练，算法融入方差归一化和均值归一化。大数据集训练DNN，容易参数量过大 (牛顿法的进化版本，寻找更好的优化方向，减少迭代轮数）从LBFGS算法的流程来看，其整个的核心的就是如何快速计算一个Hesse的近似：重点一是近似，所以有了LBFGS算法中使用前m个近似下降方向进行迭代的计算过程；重点二是快速，这个体现在不用保存Hesse矩阵上，只需要使用一个保存后的一阶导数序列就可以完成，因此不需要大量的存储，从而节省了计算资源；重点三，是在推导中使用秩二校正构造了一个正定矩阵，即便这个矩阵不是最优的下降方向，但至少可以保证函数下降。

FTRL(Follow-the-regularized-Leader)是一种适用于处理超大规模数据的,含大量稀疏特征的在线学习的常见优化算法，方便实用，而且效果很好，常用于更新在线的CTR预估模型；FTRL在处理带非光滑正则项（如L1正则）的凸优化问题上表现非常出色，不仅可以通过L1正则控制模型的稀疏度，而且收敛速度快；

A.LSTM在一定程度上解决了传统RNN梯度消失或梯度爆炸的问题

B.CNN相比于全连接的优势之一是模型复杂度低，缓解过拟合

C.只要参数设置合理，深度学习的效果至少应优于随机算法

D.随机梯度下降法可以缓解网络训练过程中陷入鞍点的问题

实际上，现在有很多针对小目标的措施和改良，如下：

最常见的是Upsample来Rezie网络输入图像的大小；

用dilated/astrous等这类特殊的卷积来提高检测器对分辨率的敏感度；（空洞卷积是针对图像语义分割问题中下采样会降低图像分辨率、丢失信息而提出的一种卷积思路。利用添加空洞扩大感受野，让原本3 x3的卷积核，在相同参数量和计算量下拥有5x5（dilated rate =2）或者更大的感受野，从而无需下采样。在保持参数个数不变的情况下增大了卷积核的感受野）

有比较直接的在浅层和深层的Feature Map上直接各自独立做预测的，这个就是我们常说的尺度问题。

用FPN这种把浅层特征和深层特征融合的，或者最后在预测的时候，用浅层特征和深层特征一起预测；

SNIP（Scale Normalization for Image Pyramids）主要思路：

在训练和反向传播更新参数时，只考虑那些在指定的尺度范围内的目标，由此提出了一种特别的多尺度训练方法。

四、机器视觉方面工程师在公司里具体要做哪些事情？需要掌握哪些知识

看做哪方面的视觉工程师，给别人做视觉系统集成的还是做视觉开发的是不同的。

1、要是做视觉系统集成的就是整天按照人家工艺的要求调试你要检测物体的画面，然后给客户的提一些光源的要求还有机械上的要求，还有项目后期要不间断的去现场。

2、要是做视觉开发的话就是天天听客户反馈然后无止境的思考算法，还有写软件。搞硬件的话就是研究光学成像问题。

图像处理工程师需要掌握的知识有：

最基本图形处理的开发与研究，熟悉图像处理的各种算法，特别是图像去燥、图像增强、复原、质量改善、检测、色彩科学、图像分割、图像识别处理、图像跟踪、图像的获取及视频处理。

具体应用包括人脸识别、医学影像处理、多点识别、文字检测与是识别。特别的，结合不同应用，还需要自然语言处理知识。

另外，要有优秀的数学功底（特别是线性代数、优化理论、统计知识）