aoi学院

Aisaka's Blog, School of Aoi, Aisaka University

深度学习-CS231n Lecture 1 [2017版]

  • CS231n - Introduction

CV–深度学习–神经网络–卷积神经网络

  • 计算机视觉是人工智能中发展最迅速的内容。
  • 2016年思科估计80%的网络数据是像素数据,进入到一个信息爆炸的时代,原因:1、互联网载体;2、传感器–手机、摄像头
  • 互联网暗物质–数据冗余,像素信息很难理解,就像银河系内的暗物质。
  • YouTube服务器接受150h video/60s。人眼很难给这些数据做标记、分类、索引,操作这些数据需要自动化。

CV–跨学科领域

  • 涉及:工程、物理、生物、心理学、计算机科学以及数学
  • CV–深度学习–神经网络

斯坦福cs231n类似的课程

  • cs131 – 本科介绍课程
  • cs231a – 核心CV课程、课题包括图像处理、成像、3D重建、视频分段、目标识别以及场景理解
  • cs231n – 神经网络(深度学习)在图像识别中的应用

CV的简短历史

  1. 寒武纪大爆发(BIG BANG)-公元前5.43亿年
  • 浮游生物漂浮在水中,等着食物进入嘴中,突然有一天生物爆发
  • 澳大利亚研究起源是生物进化出了眼睛,捕捉光线,进行环境信息交换,获取食物。
  • 视觉的出现是大爆发的最主要驱动力
  1. 文艺复兴时期
  • 现代意义上的相机的出现-达芬奇,现代视觉工程的开端,记录世界,但是没有信息的理解,仅仅是复制。
  • 电影、商用相机(柯达)、摄像机。
  1. 动物视觉原理&架构–Hubel&Wiesel
  • 将电极放入猫的大脑中,基础视觉皮质(primary visual cortex)– 处理视觉
  • 神经元处理视觉信息,实际上后脑处理视觉部分远离眼睛,50%的大脑参与视觉处理
  • 视觉占据更多资源,因为视觉处理太难了,视觉信息含量大。
  • 猫的实验中,目标是鱼-神经元脉冲,实际上鱼、花、草都不会产生神经元脉冲。更换幻灯片产生边缘切换会激发神经元信号
  • 基础视觉区的神经元是按照列组成,每一列响应不同的线条。
  1. Block world
  • by Lary Roberts in 1963,计算机视觉博士论文,后来从事互联网
  • 大脑对信息的处理是基于边缘和形状,边缘决定结构
  1. 1966年
  • 人工智能实验室:1、MIT;2、Stanford John McCarthy建立,比计算机科学还要早
  • AI一次由John McCarthy提出,计算机视觉由MIT开始研究
  • 暑期工程目标,未完成。
  1. 《Vision》–David Marr,1970
  • 视觉是分层的,图像时多层的:输入层、边缘层、2.5D层、3D(最后重建)
  • 视觉是复杂的,像素的排列组合无穷无尽。
  1. 视觉算法研究
  • Generalized Cylinder,1979年:整个世界的形状是有圆柱体组成
  • Pictorial Structure,1973:物体有简单部分形状组成,各个部位有“弹簧”组成,允许变形
  • 线条边缘,David Lowe,1987:线条边缘,圆形和方形
  • Normalized Cut,Shi & Malik,1997:第一次使用现实图片,通过感知分组对彩色图片进行分类
  • Face Detection, Vio & Jones, 2001:黑白条形过滤寻找人脸,第一个人工智能人脸检测算法
  • “SIFT” & Object Recognition, David Lowe,1999: 特征映射,目标识别
  • Spatial Pyramid Matching, Lazebnik, Schmid & Ponce, 2006:金字塔特征提取
  • Histogram of Gradients(HOG),Dalal & Triggs, 2005: 梯度直方图
  • Deformable Part Model,Felzenswalb, McAllester, Ramanan, 2009:可变形部件模型
  1. PASCAL 视觉目标检测挑战
  • 20种目标检测,2006-2012
  1. Imagenet-2010
  • 22k种类和14Millon图片,集合的dataset
  • IMAGENET,大尺寸视觉识别挑战赛(计算机视觉顶级挑战赛):1000种类,1431167图片
  • 2012年AlexNet-CNN卷积神经网络使得错误率大幅下降,后续都是神经网络模型,2015年已经低于人类的识别率5.1%

cs231n综述

  1. cs231n聚焦解决图像分类问题–视觉识别中最重要的问题之一
  • 互联网公司、初创公司、手机拍照、食物识别、电商分类
  1. 图像分类:目标检测、图像描述、运动识别

  2. 目标检测的压倒性工具——CNN(Convolutional Neural Network)

  • 2012年迎来的计算机视觉新起点–CNN的使用,DeepLearning威力得意体现
  • 1998年杨乐昆提出首个卷积神经网络结构:卷积滤波-池化-卷积滤波-池化的结构
  • 2012年AlexNet几乎相同的结构的成功得益于:算力的提升&训练数据的增长
  1. 视觉智能不仅仅是目标识别
  • 感知分组、识别&3D、场景重建
  • 图片理解:动作识别、目标关系、语义识别——Visual Genome
  • 愿景:生物视觉系统的强大,看图说话,人500ms后形成一个故事。使我们的生活更好。
  • 相关作业链接:http://cs231n.github.io/assignments2018/assignment1/