本文最后更新于:14 天前

计算机视觉

计算机视觉就是让计算机看懂图像和视频。

  • 视觉是自然智能不可思议的结晶

    • 猕猴的大脑皮层中视觉部分占据大约50%
    • 人脑中有关视觉的部分所占比重最大

  • 人类大脑对视觉进行层次化的处理

    人类采用神经网络对视觉信息进行深层次处理,和深度学习密切结合。

计算机视觉的产生和发展都经历的阶段

  • 起源:20世纪50年代统计模式识别,二维图像分析。
  • 诞生:1974年 Minsky -> David Marr 暑期, 1981年,人工智能“计算机视觉”专辑,Marr视觉计算理论 得到了迅速的发展。
  • 发展:
  • 80年代以后:
    • 随着计算能力的迅速增长,视觉计算成本极大降低。
    • 以Marr理论为基础的视觉理论广泛研究。
  • 2000年后,特征提取和基于学习的视觉得到迅速发展。
  • 2006年,Hinton 提出深度学习。
  • 2010年, 微软使用深度学习在语音方面取得突破进展。
  • 2015年后,深度学习在视觉个各邻域取得突破:
    • 2015年, 在imageNet上的识别准确率首次超越人类。
    • 2016年,Tesla 创造了56亿公里的自动驾驶路测数据。
    • 2017年,iPone x 宣布引入Face ID 高精度人脸识别技术。
    • 2018年,OpenAI 2:1 战胜人类DOTA2高手队。

计算机视觉的应用

  • 服务机器人
  • 安防监控
  • 自动驾驶
  • 智能穿戴
  • 无人机快递
  • 等等

内容架构

遵循Marr视觉计算机理论

从初略图(2维)–> $2 \frac12$维 –>3维

初略图

  • “看见”–照相,颜色,图像采集的过程。
  • “基本理解”– 滤波、边缘检测、灰度直方图、直线检测–基本特征提取
  • 图像阈值分割、区域生长、图像描述
  • 关键点及特征检测
  • 背景建模及运动估计

$2 \frac12$维

  • 视觉成像模型、视觉几何基础、相机标定

3维

  • 图像拼接
  • 立体视觉

从底层–>中层–>高层

底层是由高等数学,线性代数,矩阵分析,概率论,最优化方法,物理(运动学)来进行架构 作为理论支撑。

中层:机器视觉是建立在数字图像处理和模式识别之上的。

高层:深度学习+计算机视觉

即将更新