- CS231n - Introduction
CV–深度学习–神经网络–卷积神经网络
- 计算机视觉是人工智能中发展最迅速的内容。
- 2016年思科估计80%的网络数据是像素数据,进入到一个信息爆炸的时代,原因:1、互联网载体;2、传感器–手机、摄像头
- 互联网暗物质–数据冗余,像素信息很难理解,就像银河系内的暗物质。
- YouTube服务器接受150h video/60s。人眼很难给这些数据做标记、分类、索引,操作这些数据需要自动化。
CV–跨学科领域
- 涉及:工程、物理、生物、心理学、计算机科学以及数学
- CV–深度学习–神经网络
斯坦福cs231n类似的课程
- cs131 – 本科介绍课程
- cs231a – 核心CV课程、课题包括图像处理、成像、3D重建、视频分段、目标识别以及场景理解
- cs231n – 神经网络(深度学习)在图像识别中的应用
CV的简短历史
- 寒武纪大爆发(BIG BANG)-公元前5.43亿年
- 浮游生物漂浮在水中,等着食物进入嘴中,突然有一天生物爆发
- 澳大利亚研究起源是生物进化出了眼睛,捕捉光线,进行环境信息交换,获取食物。
- 视觉的出现是大爆发的最主要驱动力
- 文艺复兴时期
- 现代意义上的相机的出现-达芬奇,现代视觉工程的开端,记录世界,但是没有信息的理解,仅仅是复制。
- 电影、商用相机(柯达)、摄像机。
- 动物视觉原理&架构–Hubel&Wiesel
- 将电极放入猫的大脑中,基础视觉皮质(primary visual cortex)– 处理视觉
- 神经元处理视觉信息,实际上后脑处理视觉部分远离眼睛,50%的大脑参与视觉处理
- 视觉占据更多资源,因为视觉处理太难了,视觉信息含量大。
- 猫的实验中,目标是鱼-神经元脉冲,实际上鱼、花、草都不会产生神经元脉冲。更换幻灯片产生边缘切换会激发神经元信号
- 基础视觉区的神经元是按照列组成,每一列响应不同的线条。
- Block world
- by Lary Roberts in 1963,计算机视觉博士论文,后来从事互联网
- 大脑对信息的处理是基于边缘和形状,边缘决定结构
- 1966年
- 人工智能实验室:1、MIT;2、Stanford John McCarthy建立,比计算机科学还要早
- AI一次由John McCarthy提出,计算机视觉由MIT开始研究
- 暑期工程目标,未完成。
- 《Vision》–David Marr,1970
- 视觉是分层的,图像时多层的:输入层、边缘层、2.5D层、3D(最后重建)
- 视觉是复杂的,像素的排列组合无穷无尽。
- 视觉算法研究
- Generalized Cylinder,1979年:整个世界的形状是有圆柱体组成
- Pictorial Structure,1973:物体有简单部分形状组成,各个部位有“弹簧”组成,允许变形
- 线条边缘,David Lowe,1987:线条边缘,圆形和方形
- Normalized Cut,Shi & Malik,1997:第一次使用现实图片,通过感知分组对彩色图片进行分类
- Face Detection, Vio & Jones, 2001:黑白条形过滤寻找人脸,第一个人工智能人脸检测算法
- “SIFT” & Object Recognition, David Lowe,1999: 特征映射,目标识别
- Spatial Pyramid Matching, Lazebnik, Schmid & Ponce, 2006:金字塔特征提取
- Histogram of Gradients(HOG),Dalal & Triggs, 2005: 梯度直方图
- Deformable Part Model,Felzenswalb, McAllester, Ramanan, 2009:可变形部件模型
- PASCAL 视觉目标检测挑战
- 20种目标检测,2006-2012
- Imagenet-2010
- 22k种类和14Millon图片,集合的dataset
- IMAGENET,大尺寸视觉识别挑战赛(计算机视觉顶级挑战赛):1000种类,1431167图片
- 2012年AlexNet-CNN卷积神经网络使得错误率大幅下降,后续都是神经网络模型,2015年已经低于人类的识别率5.1%
cs231n综述
- cs231n聚焦解决图像分类问题–视觉识别中最重要的问题之一
- 互联网公司、初创公司、手机拍照、食物识别、电商分类
图像分类:目标检测、图像描述、运动识别
目标检测的压倒性工具——CNN(Convolutional Neural Network)
- 2012年迎来的计算机视觉新起点–CNN的使用,DeepLearning威力得意体现
- 1998年杨乐昆提出首个卷积神经网络结构:卷积滤波-池化-卷积滤波-池化的结构
- 2012年AlexNet几乎相同的结构的成功得益于:算力的提升&训练数据的增长
- 视觉智能不仅仅是目标识别
- 感知分组、识别&3D、场景重建
- 图片理解:动作识别、目标关系、语义识别——Visual Genome
- 愿景:生物视觉系统的强大,看图说话,人500ms后形成一个故事。使我们的生活更好。
- 相关作业链接:http://cs231n.github.io/assignments2018/assignment1/