aoi学院

Aisaka's Blog, School of Aoi, Aisaka University

引言

卷积,是卷积神经网络中最重要的组件之一。不同的卷积结构有着不一样的功能,但本质上都是用于提取特征。比如,在传统图像处理中,人们通过设定不同的算子来提取诸如边缘、水平、垂直等固定的特征。而在卷积神经网络中,仅需要随机初始化一个固定卷积核大小的滤波器,并通过诸如反向传播的技术来实现卷积核参数的自动更新即可。其中,浅层的滤波器对诸如点、线、面等底层特征比较敏感,深层的滤波器则可以用于提取更加抽象的高级语义特征,以完成从低级特征到高级特征的映射。本文将从背景、原理、特性及改进四个维度分别梳理10篇影响力深远的经典卷积模块以及10篇具有代表性的卷积变体,使读者对卷积的发展脉络有一个更加清晰的认知。

阅读全文 »

本篇学习报告基于2021 CVPR的人体自由视角合成的论文:《Neural Body: Implicit Neural Representations with Structured Latent Codes for Novel View Synthesis of Dynamic Humans》,该论文由浙江大学CAD&CG国家重点实验室/浙大三维视觉实验室提出。

图1 论文图片
阅读全文 »

导读

Transformer在许多的人工智能领域,如自然语言处理(Natural Language Processing, NLP)、计算机视觉(Computer Vision, CV)和语音处理(Speech Processing, SP)取得了巨大的成功。因此,自然而然的也吸引了许多工业界和学术界的研究人员的兴趣。到目前为止,已经提出了大量基于Transformer的相关工作和综述。本文基于邱锡鹏[1]老师团队近日所发表的一篇综述[2]为基础,详细的解读Transformer的来龙去脉,同时为大家介绍近期一些相关工作,中间也会穿插一些笔者的见解。最后,本文也将列出一些可探索的未来研究方向,希望能给予读者一些启发。

阅读全文 »

导读

视觉注意力机制是人类视觉所特有的一种大脑信号处理机制,而深度学习中的注意力机制正是借鉴了人类视觉的注意力思维方式。一般来说,人类在观察外界环境时会迅速的扫描全景,然后根据大脑信号的处理快速的锁定重点关注的目标区域,最终形成**注意力焦点[1]**。该机制可以帮助人类在有限的资源下,从大量无关背景区域中筛选出具有重要价值信息的目标区域,帮助人类更加高效的处理视觉信息。

阅读全文 »

本篇学习报告基于论文《EEG-based emotion recognition using simple recurrent units network and ensemble learning》,本论文的主要创新点有三点:(1)为了掌握脑电的时间信息,采用了简单循环单元(SRU)网络;(2)模型训练前,采用双树复小波变换(DT-CWT)将原始脑电信号分解为5个子带,利用时间、频率和非线性分析提取特征。然后利用5个频段的4种不同特征建立深度SRU模型。(3)采用三种集成策略对基本SRU模型进行集成,以获得更理想的分类性能。

阅读全文 »