aoi学院

Aisaka's Blog, School of Aoi, Aisaka University

前几天刚过完ACL 2019投稿季,给不少同学的论文提供了修改建议。其中很多论文,特别是初学者的论文的问题都很相似。一想到未来还要给更多新同学重复这些话,决定索性把这些建议总结出来,不仅以后能少费一番唇舌,说不定还能帮助更多同学。于是就有了这篇短文。

本文题目取“合格”的论文,而不是优美的论文,或精彩的论文。一个原因是,我自知英文水平特别是词汇有限,从未写过自认精彩或优美的论文,并无资格提供这方面的建议。另一个原因是,下面会讲到,学术论文的关键目标并非辞藻优美而是清晰准确,我在这方面还积累了不少经验。凭借这些经验,相信“辞达已矣”不难,“言之有文”则各凭本事吧。

实际上,同组的刘洋老师对NLP学术论文写作做过非常全面而精彩的报告 [1],强烈推荐所有NLP同学都仔细阅读这份报告,相信会让你少走不少科研的弯路。而本文可以看做对这个报告的脚注或补充。

阅读全文 »

关注微信公众号:人工智能前沿讲习班,公众号对话框回复“白烨”获取PPT。

随着智能音箱、语音助手等应用的出现,普通人也可以像科幻场景一样使用语音与机器进行交流。语音关键词检测是实现人机语音交互的重要技术,被广泛地应用于各类智能设备、语音检索系统当中。

阅读全文 »

关注微信公众号:人工智能前沿讲习班,公众号对话框回复“田正坤2”获取PPT。

基于联结时序分类(CTC)的声学模型不再需要对训练的音频序列和文本序列进行强制对齐,实际上已经初步具备了端到端的声学模型建模能力。但是CTC模型进行声学建模存在着两个严重的瓶颈,一是缺乏语言模型建模能力,不能整合语言模型进行联合优化,二是不能建模模型输出之间的依赖关系。RNN-Transducer针对CTC的不足,进行了改进,使得模型具有了端到端联合优化、具有语言建模能力、便于实现Online语音识别等突出的优点。

阅读全文 »

关注微信公众号:人工智能前沿讲习班,公众号对话框回复“杨凌波”获取PPT。

合成特定姿态下的人物图像,并进一步让人物动起来,做出逼真,连贯的动作,是多媒体领域颇具趣味的研究方向。近年来,图像生成及图像翻译领域快速发展,为人物动作视频合成问题提供了有效的实现路径。利用骨架+纹理特征合成视频帧的研究思路,现有研究取得了一定突破,已经能够合成较为流畅的高分辨率人物动作视频,但在处理遮挡,提升动作真实性,以及特征解耦等方面还有明显改进空间。

阅读全文 »

关注微信公众号:人工智能前沿讲习班,公众号对话框回复“机器阅读”获取PPT。

理解自然语言文本并回答相关问题是自然语言处理的核心任务之一。然而,当所提问题在当前给定文本下无法被回答时,我们要求系统能够拒绝给出答案。为了解决这一问题,当前工作通常会预测额外的“无答案”概率来检测问题是否可回答。然而,这些方法未能通过进一步验证预测答案的合法性来检测问题的可回答性。

阅读全文 »

关注微信公众号:人工智能前沿讲习班,公众号对话框回复“吴俣”获取PPT。

近些年来,随着互联网的兴起,我们可以方便快捷的从网络上抓取大规模人与人的对话,并以此训练数据驱动的聊天机器人。已有的数据驱动的聊天机器人分为基于生成的聊天机器人和基于检索的聊天机器人。

阅读全文 »

关注微信公众号:人工智能前沿讲习班,公众号对话框回复“司晨阳”获取PPT。

基于人体骨架的行为识别是一个重要而且具有挑战性的计算机视觉任务。人体图像视频不仅包含了复杂的背景,还有光照变化、人体外貌变化等不确定因素,这使得基于图像视频的行为识别具有一定的局限性。相比图像视频,人体骨架视频可以很好地克服这些不确定因素的影响,所以基于人体骨架的行为识别受到越来越多的关注。

阅读全文 »