深度学习-CS231n Lecture 1 [2017版]

发表于 2022-02-03 分类于 🌙学习资源， ⭐Stanford CS231n 阅读次数： Valine：
本文字数： 2.1k 阅读时长 ≈ 5 分钟

CS231n - Introduction

CV–深度学习–神经网络–卷积神经网络

计算机视觉是人工智能中发展最迅速的内容。
2016年思科估计80%的网络数据是像素数据，进入到一个信息爆炸的时代，原因：1、互联网载体；2、传感器–手机、摄像头
互联网暗物质–数据冗余，像素信息很难理解，就像银河系内的暗物质。
YouTube服务器接受150h video/60s。人眼很难给这些数据做标记、分类、索引，操作这些数据需要自动化。

CV–跨学科领域

涉及：工程、物理、生物、心理学、计算机科学以及数学
CV–深度学习–神经网络

斯坦福cs231n类似的课程

cs131 – 本科介绍课程
cs231a – 核心CV课程、课题包括图像处理、成像、3D重建、视频分段、目标识别以及场景理解
cs231n – 神经网络（深度学习）在图像识别中的应用

CV的简短历史

寒武纪大爆发（BIG BANG）-公元前5.43亿年

浮游生物漂浮在水中，等着食物进入嘴中，突然有一天生物爆发
澳大利亚研究起源是生物进化出了眼睛，捕捉光线，进行环境信息交换，获取食物。
视觉的出现是大爆发的最主要驱动力

文艺复兴时期

现代意义上的相机的出现-达芬奇，现代视觉工程的开端，记录世界，但是没有信息的理解，仅仅是复制。
电影、商用相机（柯达）、摄像机。

动物视觉原理&架构–Hubel&Wiesel

将电极放入猫的大脑中，基础视觉皮质（primary visual cortex）– 处理视觉
神经元处理视觉信息，实际上后脑处理视觉部分远离眼睛，50%的大脑参与视觉处理
视觉占据更多资源，因为视觉处理太难了，视觉信息含量大。
猫的实验中，目标是鱼-神经元脉冲，实际上鱼、花、草都不会产生神经元脉冲。更换幻灯片产生边缘切换会激发神经元信号
基础视觉区的神经元是按照列组成，每一列响应不同的线条。

Block world

by Lary Roberts in 1963，计算机视觉博士论文，后来从事互联网
大脑对信息的处理是基于边缘和形状，边缘决定结构

1966年

人工智能实验室：1、MIT；2、Stanford John McCarthy建立，比计算机科学还要早
AI一次由John McCarthy提出，计算机视觉由MIT开始研究
暑期工程目标，未完成。

《Vision》–David Marr，1970

视觉是分层的，图像时多层的：输入层、边缘层、2.5D层、3D（最后重建）
视觉是复杂的，像素的排列组合无穷无尽。

视觉算法研究

Generalized Cylinder，1979年：整个世界的形状是有圆柱体组成
Pictorial Structure，1973：物体有简单部分形状组成，各个部位有“弹簧”组成，允许变形
线条边缘，David Lowe，1987：线条边缘，圆形和方形
Normalized Cut，Shi & Malik，1997：第一次使用现实图片，通过感知分组对彩色图片进行分类
Face Detection， Vio & Jones， 2001：黑白条形过滤寻找人脸，第一个人工智能人脸检测算法
“SIFT” & Object Recognition, David Lowe,1999: 特征映射，目标识别
Spatial Pyramid Matching, Lazebnik, Schmid & Ponce, 2006：金字塔特征提取
Histogram of Gradients(HOG),Dalal & Triggs, 2005: 梯度直方图
Deformable Part Model，Felzenswalb, McAllester, Ramanan, 2009：可变形部件模型

PASCAL 视觉目标检测挑战

20种目标检测，2006-2012

Imagenet-2010

22k种类和14Millon图片，集合的dataset
IMAGENET,大尺寸视觉识别挑战赛（计算机视觉顶级挑战赛）：1000种类，1431167图片

2012年AlexNet-CNN卷积神经网络使得错误率大幅下降，后续都是神经网络模型，2015年已经低于人类的识别率5.1%

cs231n综述

cs231n聚焦解决图像分类问题–视觉识别中最重要的问题之一

互联网公司、初创公司、手机拍照、食物识别、电商分类

图像分类：目标检测、图像描述、运动识别
目标检测的压倒性工具——CNN（Convolutional Neural Network）

2012年迎来的计算机视觉新起点–CNN的使用，DeepLearning威力得意体现
1998年杨乐昆提出首个卷积神经网络结构：卷积滤波-池化-卷积滤波-池化的结构
2012年AlexNet几乎相同的结构的成功得益于：算力的提升&训练数据的增长

视觉智能不仅仅是目标识别

感知分组、识别&3D、场景重建

图片理解：动作识别、目标关系、语义识别——Visual Genome
愿景：生物视觉系统的强大，看图说话，人500ms后形成一个故事。使我们的生活更好。
相关作业链接：http://cs231n.github.io/assignments2018/assignment1/