第1281期机器学习日报(2018-03-22)

更新于 2018年3月23日 机器学习
我来说两句
0 2018年3月23日

2018-03-22 日报 机器学习

机器学习日报 2018-03-22

@好东西传送门 出品,由@AI100运营, 过往目录http://daily.awesomeport.cn/ml

订阅:关注微信公众号 AI100(ID:rgznai100,扫二维码),回复“机器学习日报”,加你进日报群

微信公众号:rgznai100

本期话题有:

全部16 自然语言处理7 算法7 深度学习6 资源5 视觉4 应用3 会议活动3 公告板2 语音1

用日报搜索找到以前分享的内容: http://ml.memect.com/search/

wx:关注前沿科技   网页版 2018-03-22 08:10
会议活动 视觉 算法 应用 自然语言处理 分类 会议 活动 迁移学习 预测 智能汽车
「AI challenger发起零样本学习算法大赛,推出零样本数据集」AI challenger又有数据集福利!2017年,AI challenger全球AI挑战赛,吸引了来自65个国家的8892支团队参赛。今日,2018年新赛季预热开始。3月22日,AI challenger宣布发起零样本学习(zero-shot learning)竞赛。同时,推出针对零样本学习的大规模图像属性数据集,包含78,017张图片、230个类别、359种属性。与目前主流的用于零样本学习的数据集相比,属性上更丰富、类别重合度低。零样本学习是当前最具挑战的AI识别方法之一。主要使用已知类别数据集训练模型,然后将该模型用于识别未知类别的样本。一般在图像的分类识别任务中,训练阶段和测试阶段样本的类别都是相同的,但每次为了识别不同的类别样本都需要在训练集中加入这种样本数据,如果新样本的数量较少或者新样本类别数目过大,都会加大数据集的制作成本,零样本学习的方法便能很好的解决这个问题。本质上,零样本学习是迁移学习的方法之一。在识别未知类别样本的过程中,实现从已知类别域到未知类别域的知识迁移。而在迁移学习中,可传递的中间知识起着关键的作用。这些中间知识应该具有共享性、灵活性和可解释性,只有通过这些知识才能够进行完美的知识迁移。其中,被不同类别的物体所共享的数据被标记为属性。属性也是判断零样本数据集的核心维度之一。零样本问题在机器学习中并非热门,直到2008 年Larochelle 等人针对字符领域中的分类问题提出了零样本学习(zero shot learning)方法,并且识别准确率达到了60%,才真正打开零样本学习的关注度。目前比较主流的方法是Lampert 提出的直接属性预测模型(DAP)和间接属性预测模型(IAP)。如下图所示,这两种方法在零样本分类研究中受到了很高的重视,这两种模型中属性训练都是在传统特征提取的基础上的进行的。首先使用颜色直方图、局部自相似直方图、SIFT 和PHOG 等6 种方法来提取样本图像的底层特征,这几种特征包含了图像的颜色、形状和纹理等方面,所以通过这种特征提取方法得到的特征信息可以良好的表达图像中的信息,因此这几种图像特征不仅适用与线性分类器,而且在非线性分类器中也能达到良好的表现。通过上述的特征提取方法得到样本图像的特征信息后,将提取到的特征信息用于属性分类器的训练,然后将训练得出的模型用于属性的预测,最后根据自身模型结构采用相应的概率方法推算测试样本的类别。将DAP 方法分别用到AWA 和SUN 数据集中得到略高于40%和50%的准确率,可以看出在零样本图像分类上已经有一定的效果,但识别精度上还有待提高。零样本学习目前潜在的应用场景,有5种可以列举。在智能体训练中,“零样本学习”首先让智能体(Agent)对老师给出的指令进行语义理解,根据理解出的命令做出行为。其次让虚拟老师对此行为给出正面或负面反馈,如果为正面反馈,智能体(Agent)能做出正确动作,就能收到奖赏,如果失败,就会受到惩罚。 在收到奖赏的情况下,智能体(Agent)这样就能慢慢理解语言含义,并学会正确使用语言。此后,如果遇到不熟悉的命令,智能体(Agent)就能够推断出语言的正确含义,做出适当行为,从而满足预期目标。例如,识别模型在“马”、“牛”等类别上训练过,因此模型能够准确地识别“马”、“牛”的图片。当模型遇到“象”这个新类别,由于从未见过,模型无法作出判断。传统解决方案是收集大量“象”的图片,与原数据集一起重新训练。这种解决方案的代价高、速度慢。然而,人类能够从描述性知识中快速学习一个新概念。例如,一个儿童即使没有见过“象”,当提供他文本描述“象是一种的大型食草类动物,有长鼻和长牙”。儿童能够根据描述快速学会“象”这一新类别,并能在第一次见到“象”时识别出来。零样本学习与之类似,在没有任何训练样本的情况下,借助辅助知识(如属性、词向量、文本描述等)学习一些从未见过的新概念(类别)。最典型的是进行三种语言之间的翻译,按照传统的方法需要训练至少六个网络,双向的话需要12个网络。但如果通过零样本学习的方法,训练英语→特征空间→日语,韩语→特征空间→英语这两个网络,就可以自动学会韩语→特征空间→日语的翻译过程。 翻译模型的训练效率会大大提高,对于那些没有专门对照译本的小语种来说,也是福音。近年来,对抗网络GAN被用于图像合成,取得了以假乱真的效果。但传统图像合成仅能合成见过的类别的图像。零样本图像合成希望模型能够合成从未见过的类别的图像。目前已有一些算法通过条件GAN网络实现了零样本图像合成。传统图像哈希算法利用一些训练样本来学习针对某些类别的哈希算法。但这些学习到的哈希算法无法用于新类别。零样本图像哈希,希望在已知类别上学到哈希算法能够运用到新的未知类别上。目前,一些基于属性的零样本哈希算法已经被提出。怎么样,是不是已经对本次零样本学习竞赛跃跃欲试了?量子位了解到,此次AI challenger的零样本学习(zero-shot learning)竞赛,将于本日(3月22日)正式开启,4月23日截止提交。1-3人皆可组队参与比赛。赛程赛制方面,将采用双周赛的方式,从3月22日至4月23日期间,组委会将举办2次双周赛。双周赛的排名将以4月8日、4月22日当晚23:59:59的成绩榜单排名为准,届时会邮件通知所有参赛者,双周奖的奖金和最终奖金一并发放。冠军:30,000人民币,颁发获奖证书亚军:10,000人民币,颁发获奖证书季军:3,000人民币,颁发获奖证书双周冠军:3,000人民币双周亚军:2,000人民币双周季军:1,000人民币竞赛奖励:提及金额均为税前金额附:数据集下载地址:https://challenger.ai/datasets — 完 —加入社群量子位AI社群15群开始招募啦,欢迎对AI感兴趣的同学,加小助手微信qbitbot6入群;此外,量子位专业细分群(自动驾驶、CV、NLP、机器学习等)正在招募,面向正在从事相关领域的工程师及研究人员。进群请加小助手微信号qbitbot6,并务必备注相应群的关键词~通过审核后我们将邀请进群。(专业群审核较严,敬请谅解)诚挚招聘量子位正在招募编辑/记者,工作地点在北京中关村。期待有才气、有热情的同学加入我们!相关细节,请在量子位公众号(QbitAI)对话界面,回复“招聘”两个字。量子位 QbitAI · 头条号签约作者վ’ᴗ’ ի 追踪AI技术和产品新动态 via: http://mp.weixin.qq.com/s?__biz=MzIzNjc1NzUzMw==&mid=2247495843&idx=2&sn=0c99bfe8f8bb79c997df590527c729be&scene=0#wechat_redirect

 

wx:   网页版 2018-03-23 06:38
深度学习 视觉 算法 自然语言处理 代码 神经网络
「利用DeepLab在Tensorflow中进行语义图像分割」语义图像分割,也就是将“道路”、“天空”、“人”和“狗”等语义标签分配给图像中每一个像素的任务,可以实现大量的新应用,例如 Pixel 2 与 Pixel 2 XL 智能手机人像模式中附带的合成浅景深效果,以及移动实时视频分割。分配这些语义标签需要标出对象的轮廓,因此,它对定位精度的要求比其他视觉实体识别任务(例如图像级分类或边界框级检测)更加严格。我们高兴地宣布将 Google 最新、性能最好的语义图像分割模型 DeepLab-v3+ (在 Tensorflow 中实现)开源:https://github.com/tensorflow/models/tree/master/research/deeplab 此次发布包括基于一个强大的卷积神经网络 (CNN) 骨干架构构建的 DeepLab-v3+ 模型,这些模型可以获得最准确的结果,预期用于服务器端部署。作为此次发布的一部分,我们还将分享 Tensorflow 模型训练与评估代码,以及已在 Pascal VOC 2012 和 Cityscapes 基准语义分割任务中预先训练的模型。 转自:TensorFlow 完整内容请点击“阅读原文 via: http://mp.weixin.qq.com/s?__biz=MzA4NDEyMzc2Mw==&mid=2649678834&idx=2&sn=f7ee90685a972123cda668ebbe08ca9e&scene=0#wechat_redirect

 

wx:   网页版 2018-03-23 06:38
深度学习 算法 神经网络
「对抗样本引发的系列讨论」所谓对抗性样本,指的是对于训练好的神经网络(比如是训练好神经网络用作图片分类)  ,随便拿一张能被网络正确分类的图片  ,人为的对图片的像素加一些很小的扰动  (perturbation),神经网络会以很大的概率将perturbed的图片  分类错误,即  ,重要的是扰动后的图片人眼是不会分类错误的,甚至都无法察觉加了扰动。比如下图将一个大熊猫的图片进行很小的扰动就会将其分类为长臂猿。也就说明当今被人们广为称道的深度学习模型是如此的脆弱不堪。注意这个小扰动  不是一个随便的扰动,而是解一个优化问题得到的扰动,我们称为这个求解过程为攻击网络,这也是被称为对抗性样本的原因。 原文链接: via: http://mp.weixin.qq.com/s?__biz=MzA4NDEyMzc2Mw==&mid=2649678834&idx=3&sn=0e71928b76caacc9ea9263fc0ec13802&scene=0#wechat_redirect

 

爱可可-爱生活   网页版 2018-03-22 14:31
视觉 自然语言处理 问答系统
【视觉问答2018挑战赛】“VQA(Visual Question Answering) Challenge 2018 launched” http://t.cn/RyHrJEn

 

wx:奕欣   网页版 2018-03-22 08:26
公告板 会议活动 深度学习 算法 应用 知识工程 资源 自然语言处理 AAAI GPU Mu Guo PDF SVM Yong Cao Zexuan Zhong 曹涌 分类 广告系统 郭沐 行业动态 会议 机器翻译 机器人 聂再清 社交网络 神经网络 招聘 招生 知识库
「学界 | 阿里巴巴AAAI 18论文CoLink:知识图谱实体链接无监督学习框架」AI 科技评论按:阿里巴巴有 11 篇论文被 AAAI 2018 录用,分别来自机器智能技术实验室、业务平台事业部、阿里妈妈事业部、人工智能实验室、云零售事业部,其中有 5 位作者受邀在主会做 Oral&Spotlight 形式报告,另有 1 位作者携两篇论文在主会以 Poster 形式做报告。论文内容涉及对抗学习、神经网络、提高轻量网络性能的训练框架、机器翻译、聊天机器人、无监督学习框架、极限低比特神经网络等技术方向。以下为阿里巴巴 AI Lab 与微软研究院、伊利诺伊大学厄巴纳-香槟分校的合作论文解读投稿。主要作者(中英文):钟泽轩 Zexuan Zhong、曹涌 Yong Cao、郭沐 Mu Guo、聂再清 Zaiqing Nie论文下载地址:https://102.alibaba.com/downloadFile.do?file=1518508273059/CoLink%20An%20Unsupervised%20Framework%20for%20User%20Identity%20Linkage.pdf 将几个子知识图谱上的同一实体信息链接在一起(也被称为用户身份链接(UIL)问题)对很多应用而言都至关重要。实体链接问题有两大主要难点。第一,收集人工链接的实体信息对(user pairs)作为训练数据的成本非常高昂。第二,不同子知识图谱的实体属性通常有非常不同的定义方式和格式,这使得属性对齐(attribute alignment)非常困难。我们在本论文中提出了 CoLink,一种用于实体信息链接问题的通用型无监督框架。CoLink 使用了一种能同时操作两个独立模型(基于属性的模型和基于关系的模型)的协同训练算法,并且能以无监督学习的方式迭代式地让两个模型彼此互相增强。我们还提出使用「序列到序列」学习作为基于属性的模型非常有效,这种方法能将属性对齐难题当作机器翻译问题处理。我们将 CoLink 应用到了将企业网络中的员工映射到他们的领英(LinkedIn)个人资料的实体信息链接任务上。实验结果表明 CoLink 在 F1 分数上的表现超过之前最佳的无监督方法的 20% 以上。 将不同子知识图谱上的同一实体信息链接起来(也被称为用户身份链接(UIL)问题)通常能得到对该实体的更好和更深度的理解,这通常又能进一步得到更好的商业智能。尽管机器学习算法已经在实体链接问题上得到了广泛的应用,但训练数据的标注工作并不简单。首先,寻找已链接实体信息配对是极其耗时的,因为这需要搜索所有子知识图谱以及仔细评估大量候选配对。另外这个工作还需要人类标注者具有广泛的领域知识。其次,由于隐私保护的原因,并非所有知识图谱的实体数据都可以提供给人类标注者,尤其是当这些资料来自个人社交网络或企业内部网络时。在两个子知识图谱之间链接实体需要仔细比对两个子图谱中的实体属性,比如名称、职位、位置等。因此,属性值的对齐对实体链接问题而言至关重要。但是,传统的字符串相似度函数有两个不足之处:没有一个通用方法可以处理相同属性在不同实体网络中的变化无法找到隐式的属性对应关系在这篇论文中,我们提出了一种用于实体链接问题的通用型无监督框架 CoLink。知识图谱中的实体数据可以自然地划分为两个独立的角度的特征:属性和关系,这完美契合协同训练(co-training)算法的要求。CoLink 使用两个独立的模型:一个基于属性的模型和一个基于关系的模型。基于属性的模型和基于关系的模型都是二元分类器,决定两个实体是否能链接起来。它们可以基于任何机器学习或启发式算法。因此,只要知识图谱资料中包含属性和关系,那就可以将 CoLink 应用于该知识图谱的实体链接问题上。更进一步,我们在 CoLink 的基于属性的模型的实现中使用了「序列到序列」学习算法,这为不同实体网络之间的属性对齐提供了一种通用方法。我们没有将属性对齐当成字符串相似度比较而进行处理,而是试图将一种「语言」(一种特定风格的网络)的属性值「翻译」成另一种「语言」。缩略语、缩写、同义词甚至隐式对应关系都可被视为翻译的特殊情况。我们选择「序列到序列」算法的原因是其已经表现出了在机器翻译任务上的有效性。具体而言,「序列到序列」方法有两种可用于 CoLink 的优势。首先,它几乎无需手动提取特征就能自动得到词层面的映射和序列层面的映射。其次,它只需要正例(已对齐的属性对)作为训练数据,这能减轻采样负例的工作。我们将 CoLink 应用到链接社交网络的相同用户的任务上,其中我们试图将企业网络中的员工和他们的领英个人资料链接起来。我们进一步比较了 CoLink 和之前最佳的无监督方法。实验结果表明 CoLink 在 F1 分数上的表现总体上能超过之前最佳的无监督方法的 20%。我们的贡献总结如下:我们最早将协同训练算法用在了知识图谱实体链接的问题上。由于实体网络中的实体属性和实体关系是自然分开的,这使得协同训练是一种完美且无成本的解决方案。我们最早将属性对齐问题建模为机器翻译。我们使用「序列到序列」方法作为基于属性的模型的基础,这几乎无需提取特征就能实现很好的泛化。我们进行了大量实验,比较了我们提出的方法和之前最佳的无监督方法,列举了不同的设置和模型,结果表明了我们提出的解决方案的有效性。  问题定义  知识图谱上的实体链接问题定义为:其输入包括一个源知识图谱和一个目标知识图谱。其输出为一个实体链接对集合,表示从源图谱中链接到目标图谱中的实体对。 CoLink 框架 CoLink 框架基于如算法 1 所示的协同训练算法。我们在该框架中定义两个不同的模型:一个基于属性的模型 fatt 和一个基于关系的模型 frel。这两个模型都会进行二元分类预测,将一组给定实体对分类为正例(链接的)或负例(非链接的)。该协同训练算法以迭代的方式不断增强这两个模型。在每一次协同训练迭代过程中,两个模型都会使用已链接配对集 S 进行再训练。然后使用这两个模型生成的高质量的已链接配对会被合并到 S 中以用于下一次迭代,直到 S 收敛。在最开始时,需要一个初始的已链接配对集(简称种子集)来启动这个协同训练过程,这个集合可以通过一组种子规则生成。根据模型所用的算法,基于属性的模型和基于关系的模型的训练可能会需要负例。算法 1 中没有给出采样负例的过程。算法 1:CoLink 中的协同训练算法这个协同训练算法不会修改之前的迭代中生成的已链接配对。因此由之前的迭代引入的误差不会在后面得到修复。这种算法的一种替代方案是在协同训练收敛之后进行一次最终修改。即使用该协同学习过程所得到的最终模型来重构 S。 种子规则 该协同训练算法的启动需要一个已链接实体对构成的小型种子集。获取种子集的一种简单直接的方法是根据人工设计的规则来生成,我们称之为种子规则。这些种子规则可以考虑来自目标知识图谱的以下事实:实体名称唯一性实体属性值映射实体关系传播种子规则的选取会直接影响 CoLink 的表现。 基于属性的模型 基于属性的模型通过考虑实体的属性来预测链接的实体对。它可以使用任何分类算法。在这篇论文中,我们尝试了两种不同的机器学习算法:「序列到序列」和支持向量机(SVM)。序列到序列 由于属性有不同的变化形式,所以传统的字符串相似度方法在处理属性对齐方面表现很差。由于属性对齐类似于机器翻译问题,所以我们采用了「序列到序列」方法。缩略语、缩写、同义词甚至隐式链接都可被视为翻译的特殊情况。我们采用了 Sutskever, Vinyals, and Le (2014) 提出的「序列到序列」网络结构。该网络由两部分构成:序列编码器和序列解码器。编码器和解码器都使用了深度长短期记忆(LSTM)架构。编码器深度 LSTM 会读取输入序列并求出每个词位置的表示向量。然后这些向量会被送入一个注意层(attention layer),从而得到一个考虑了输出词位置的输入序列的整体表示。然后解码器深度 LSTM 的隐藏状态会进一步被送入一个全连接层(其输出包含词汇库大小的维度信息),进而预测输出词。我们按照之前的工作,使用已链接属性值配对训练了「序列到序列」网络。但是,我们不是使用网络预测输出序列,而是在 CoLink 中使用所学习到的「序列到序列」网络来进行二元分类。首先,我们使用该网络求出对于一对属性匹配的概率。然后,我们选择一个匹配概率阈值,超过该阈值的实体对被认为是有链接的。支持向量机 SVM 等传统的分类算法也可以用在基于属性的模型中。不同于只需要正例训练样本(已链接配对)的「序列到序列」方法,SVM 还需要负例。因为用户配对空间非常大,所以正例在整个空间中实际上非常稀疏。在每次联合训练迭代中,给定已链接配对,我们还会选择同等数量的随机实体对作为负例。 基于关系的模型 基于关系的模型仅使用实体关系来预测链接实体对。只根据关系来寻找两个网络中同等结点的问题通常被称为网络对齐问题。基于关系的模型可以使用任何基于关系的网络对齐模型。因为本文的重点是协同训练算法和「序列到序列」的基于属性的模型,所以我们在本论文中使用了一种简单的启发式模型,该模型基于一个假设:如果两个来自不同网络的实体都具有大量互相关联的已链接实体,那么这两个实体很可能也是链接的。 数据集 我们选择了一个真实数据集来评估 CoLink,它包含两个社交网络。其中一个社交网络是领英,另一个网络是一个企业内部用户网络。表 1:数据集总体情况 候选实体对的选择 我们构建了一个候选实体对过滤器,它能移除大量不可能链接的实体对。该候选项过滤器考虑了以下属性。实体名组织机构在过滤之后,我们得到了 758046 个候选实体对,其涵盖了测试集合中所有有链接的配对。 序列到序列 我们实验中的「序列到序列」网络由一个带注意网络的深度 LSTM 编码器和一个深度 LSTM 解码器构成。编码器深度 LSTM 和解码器深度 LSTM 都有 2 个层叠的 LSTM,因为我们发现对于实体链接任务而言,超过 2 层的编码器或解码器不能再带来更多提升。每个 LSTM 的循环单元大小为 512。每个词在被送入编码器和解码器之前都首先会被转换成一个 512 维的嵌入向量。「序列到序列」模型的训练时间取决于训练数据的规模。平均而言,使用一个 Tesla K40 GPU,让模型在 10 万个属性配对上完成训练需要 30 分钟。 种子规则 为了测试 CoLink 的稳健性,我们尝试了下列 3 个种子规则集:粗略调整的集合精细调整的集合 有噪声集合 图 1:种子集比较;协同训练迭代开始后的 P/R/F1 趋势 协同训练 我们通过将关系特征和属性特征分开而使用了协同训练。基于属性的模型和基于关系的模型都能在每次迭代中找到新配对然后增强彼此。图 2 给出了每个模型所得到的已链接配对的统计情况。在这项任务中,基于属性的模型生成的配对比基于关系的模型多,这是因为我们没有完整的领英关系数据。我们爬取了公开的领英个人资料中的「人们还看了」列表,这只能为每位用户提供不到 10 个关系。图 2:基于粗略调整的种子配对使用联合训练迭代得到的已链接配对的增长情况 概率阈值 图 3 给出了不同阈值的比较情况。使用更严格的阈值(更小的百分数)会得到更高的精度和相对更低的召回率。我们在本任务中选择的阈值是 95%。图 3:序列到序列链接概率阈值比较 比较结果 表 2:不同方法的表现的比较 属性对齐 通过使用「序列到序列」方法,CoLink 可以处理使用传统字符串相似度函数难以应付的属性对齐问题。表 3 给出了一些选择出的应该是对齐的属性示例以及来自不同方法的相似度分数(全都位于 [0,1] 区间中)。在「序列到序列」的帮助下,几乎无需提取特征,就可以轻松地将这种方法应用于其它实体匹配任务。 表 3:选择出的一些属性示例以及它们的相似度分数对了,我们招人了,了解一下? 限时拼团—NLP工程师入门实践班三大模块,五大应用,知识点全覆盖;海外博士讲师,丰富项目分享经验;理论+实践,带你实战典型行业应用;专业答疑社群,结交志同道合伙伴。点击阅读原文或扫码立即参团~┏(^0^)┛欢迎分享,明天见! via: http://mp.weixin.qq.com/s?__biz=MzI5NTIxNTg0OA==&mid=2247490163&idx=3&sn=b26f6c8e95b396d36ea1a14244888cbd&scene=0#wechat_redirect

 

爱可可-爱生活   网页版 2018-03-22 14:43
资源 Kaggle 视频
【(官方)Kaggle简介】《What’s Kaggle – YouTube》 http://t.cn/Rn6Yyd9 http://t.cn/Rn6YyrN

 

网路冷眼   网页版 2018-03-22 13:00
自然语言处理 代码
【Word2Bits – Quantized Word Vectors】http://t.cn/RnI8JF1 Word2Bits – 量化的Word矢量。 ​

 

新智元   网页版 2018-03-22 09:13
David Patterson John Hennessy 行业动态
【新智元导读】ACM刚刚公布了2017年的图灵奖得主,体系结构宗师John Hennessy和David Patterson两人共同获此殊荣。他们两人合著的经典教材培养和指导了无数后人。在AI硬件架构设计火热的今天,图灵奖颁发给了体系结构大师,而且两位近期都被收入Alphabet体系,终于会师谷歌。http://t.cn/RnimibA

 

wx:关注前沿科技   网页版 2018-03-22 08:10
资源 自然语言处理 PDF 教育网站 统计 智能汽车
「MIT:自动驾驶系统也能拨开迷雾,看清物体」雾天驾驶一直是自动驾驶汽车导航系统面对的重要问题。麻省理工学院 (MIT) 的研究团队开发了一套基于LIDAR的深度感知系统,就算物体隐藏在人类肉眼难以望穿的浓雾背后,系统也能测定物体的距离和形状。许多自动驾驶系统使用的是可见光,与基于雷达的系统相比而言分辨率更高,识别路标和车道标记的能力也更强。而基于可见光的系统在能见度偏低的驾驶条件中,会受到严重的局限——晴朗的天气里,光线从射出到返回的时间可以准确反映物体的距离;但在雾中,传感器收到的光线很可能是经水滴反射而来,不一定是从汽车需要避让的障碍物身上返回。MIT团队利用统计学来解决这一问题。雾中水滴反射光线的形态取决于雾有多浓,平均来说,光线进入浓雾的程度要低于其进入薄雾的程度。不过,研究人员证明了,不论是多么重的雾,反射光线到达传感器所需的时间都与伽马分布相贴合。与钟形的高斯分布相比,伽马分布要复杂一些,呈现的形状更为多样,不对称的情况很多。但与高斯分布相似的是,伽马分布同样可以用两个变量就完全表示出来。MIT团队通过估算这些变量得出分布,用以将被雾反射的光线过滤出来。这样一来,物体距离测定的准确度,便不会受到大雾天气的过度影响。关键的一点是,MIT系统会对传感器的1,024枚像素做出1,024个伽马分布。系统可以在不同浓度的雾中稳定发挥的原因,便是每一枚像素看到的并不完全是同一片雾。 论文在此:http://web.media.mit.edu/~guysatat/fog/materials/TowardsPhotographyThroughRealisticFog.pdf— 完 —加入社群量子位AI社群15群开始招募啦,欢迎对AI感兴趣的同学,加小助手微信qbitbot6入群;此外,量子位专业细分群(自动驾驶、CV、NLP、机器学习等)正在招募,面向正在从事相关领域的工程师及研究人员。进群请加小助手微信号qbitbot6,并务必备注相应群的关键词~通过审核后我们将邀请进群。(专业群审核较严,敬请谅解)诚挚招聘量子位正在招募编辑/记者,工作地点在北京中关村。期待有才气、有热情的同学加入我们!相关细节,请在量子位公众号(QbitAI)对话界面,回复“招聘”两个字。量子位 QbitAI · 头条号签约作者վ’ᴗ’ ի 追踪AI技术和产品新动态 via: http://mp.weixin.qq.com/s?__biz=MzIzNjc1NzUzMw==&mid=2247495843&idx=4&sn=db0fcef1bc290b84ac0c185ade54cdf9&scene=0#wechat_redirect

 

爱可可-爱生活   网页版 2018-03-22 06:12
代码
‘Verilog Generator of Neural Net Digit Detector for FPGA’ by ZFTurbo GitHub: http://t.cn/RniSNdY

 

爱可可-爱生活   网页版 2018-03-22 06:08
深度学习 算法 资源 代码 课程 神经网络
“BinaryNet in TensorFlow/TensorLayer: Training Deep Neural Networks with Weights and Activations Constrained to +1 or -1” http://t.cn/RniSI6H

 

爱可可-爱生活   网页版 2018-03-22 05:43
【Supervise.ly发布人像分割数据集】《Releasing “Supervisely Person” dataset for teaching machines to segment humans》 http://t.cn/RniXXfX pdf:http://t.cn/RniXXf6

 

网路冷眼   网页版 2018-03-22 05:00
深度学习
【Splash of Color: Instance Segmentation with Mask R-CNN and TensorFlow】http://t.cn/RnMivco 颜色飞溅:使用Mask R-CNN和TensorFlow进行实例分割。 ​

 

wx:   网页版 2018-03-23 06:38
算法 强化学习
「强化学习在锦囊位置调控上的探索和实践」                                                                                                                                                                                                                                                                         一、背景在手淘的搜索中,当用户输入query进行搜索之后,一方面有适合他的商品展现出来,另一方面,如何更好地理解用户意图,为其推荐更合适的关键词进行细分查找,从而更高效的引导用户到他想找的商品,也是一件非常重要的事情。因此在手淘搜索场景下,我们以“锦囊”这种产品形态来承载对用户意图的理解和细分,关于锦囊更完整的介绍请见:https://www.atatech.org/articles/80706  同时锦囊的内容也分了不同的类型,比如从标题抽取出来的tag标签,相关搜索,以及和query相关的品牌和其它的各种属性值,如裙长,袖长等。如下图所示:在这里,我们主要解决的问题是如何根据用户的历史以及实时行为,在当前query下,为他推荐更合适的锦囊类型,比如有的用户对品牌感兴趣,有的用户对风格感兴趣,那么就会根据实时的信息,在合适的页面展现合适的锦囊类型。以提高用户对锦囊的点击率,进而提升引导效率。 转自:云栖社区 完整内容请点击“阅读原文 via: http://mp.weixin.qq.com/s?__biz=MzA4NDEyMzc2Mw==&mid=2649678834&idx=4&sn=127af3a8998565fa72ec11b85d7ff3b0&scene=0#wechat_redirect

 

wx:   网页版 2018-03-23 04:41
公告板 会议活动 深度学习 视觉 算法 应用 语音 资源 自然语言处理 CVPR ICML NIPS PDF See In 分类 广告系统 行业动态 和海明 会议 机器翻译 机器人 矩阵 鲁邦性 论文 迁移学习 神经科学 神经网络 问题 语言学
「CVPR 2018 | 腾讯AI Lab入选21篇论文详解」来源:腾讯AI实验室 近十年来在国际计算机视觉领域最具影响力、研究内容最全面的顶级学术会议CVPR,近日揭晓2018年收录论文名单,腾讯AI Lab共有21篇论文入选,位居国内企业前列,我们将在下文进行详解,欢迎交流与讨论。  去年CVPR的论文录取率为29%,腾讯AI Lab 共有6篇论文入选,点击 这里 可以回顾。2017年,腾讯 AI Lab共有100多篇论文发表在AI顶级会议上,包括ICML(4篇)、ACL(3篇)、NIPS(8篇)等。 我们还坚持与学界、企业界和行业「共享AI+未来」,已与美国麻省理工大学、英国牛津大学、香港科技大学、香港中文大学等多所海内外知名院校开展学术合作,并通过年度学术论坛、联合研究、访问学者、博士生及研究生奖学金等多种形式,推动前沿研究探索、应用与人才培养。计 算 机 视 觉 未 来 方 向 与 挑 战计算机视觉(Computer Vision)的未来,就是多媒体AI崛起,机器之眼被慢慢打开的未来。多媒体有的时候又称为富媒体,是对图像、语音、动画和交互信息的统称。多媒体AI就是对这些所有内容的智能处理。一份国际报告显示,到2021年,视频将占全球个人互联网流量的比例,将从15年的70%增长到82%,成为信息的主要载体。目前我们计算机视觉中心的工作重点,从以往单纯的图像转向视频AI,研究视频的编辑、理解、分析和生成等。 第一个方向是研究如何让AI理解视频中更深层、更细节的信息,分析视频里人物与人物间、人物与物体间,到物体与场景间的具体关系,这是业界热门且亟待突破的研究方向。 第二个方向,不仅要研究视觉信号,还着眼于多模态信息,如计算机视觉加文本、加语音等信号的结合。比如视觉+文本上,我们的图像与视频描述生成技术已有一定 进展。 第三个方向是多媒体AI在垂直领域的应用。如在机器人领域,用视觉信息让AI感知周围世界,构建整个空间信息,进行导航和避障等操作。在医疗领域,分析医疗影像数据,结合病历文本信息等,让AI深入参与到辅助诊疗中。 这个领域的未来挑战,更多是对具体应用场景,比如安防、无人驾驶等难度大的具体应用场景,进行更细致规划和技术延伸。腾 讯 AI Lab 21 篇 入 选 论 文 详 解1.  面向视频理解的端到端动作表示学习End-to-End Learning of Motion Representation for Video Understanding 本文由AI Lab主导完成,并入选Spotlight文章。尽管端到端的特征学习已经取得了重要的进展,但是人工设计的光流特征仍然被广泛用于各类视频分析任务中。为了弥补这个不足,作者创造性地提出了一个能从数据中学习出类光流特征并且能进行端到端训练的神经网络:TVNet。当前,TV-L1方法通过优化方法来求解光流,是最常用的方法之一。作者发现,把TV-L1的每一步迭代通过特定设计翻译成神经网络的某一层,就能得到TVNet的初始版本。因此,TVNet能无需训练就能被直接使用。更重要的是,TVNet能被嫁接到任何分类神经网络来构建从数据端到任务端的统一结构,从而避免了传统多阶段方法中需要预计算、预存储光流的需要。最后,TVNet的某些参数是可以被通过端到端训练来进一步优化,这有助于TVNet学习出更丰富以及与任务更相关的特征而不仅仅是光流。在两个动作识别的标准数据集HMDB51和UCF101上,该方法取得了比同类方法更好的分类结果。与TV-L1相比,TVNet在节省光流提取时间和存储空间的基础上,明显提高了识别精度。2.  基于递归的左右双目对比模型的立体匹配Left-Right Comparative Recurrent Model for Stereo Matching 本文由AI Lab主导完成。充分利用左右双目的视差信息对于立体视差估计问题非常关键。左右一致性检测是通过参考对侧信息来提高视差估计质量的有效方法。然而,传统的左右一致性检测是孤立的后处理过程,而且重度依赖手工设计。本文提出了一种全新的左右双目对比的递归模型,同时实现左右一致性检测和视差估计。在每个递归步上,模型同时为双目预测视差结果,然后进行在线左右双目对比并识别出很可能预测错误的左右不匹配区域。本文提出了一种“软注意力机制”更好地利用学习到的误差图来指导模型在下一步预测中有针对性地修正更新低置信度的区域。通过这种左右对比的递归模型,生成的视差图质量能够不断提高。在KITTI 2015、Scene Flow和Middlebury标准库上的实验验证了本方法的有效性,并显示本方法能取得最高的立体匹配视差估计性能。下载地址:https://arxiv.org/pdf/1801.09414.pdf3.  MRF中的CNN:基于内嵌CNN的高阶时空MRF的视频对象分割CNN in MRF: Video Object Segmentation via Inference in A CNN-Based Higher-Order Spatio-Temporal MRF 本文由AI Lab独立完成。本文讨论了视频对象分割的问题,其中输入视频的第一帧初始对象的掩膜是给定的。作者提出了一个新的时空马尔可夫随机场(MRF)模型来解决问题。与传统的MRF模型不同,作者提出的模型中像素之间的空间相关性由卷积神经网络(CNN)编码。具体而言,对于给定的对象,可以通过用该对象预先训练的CNN来预测一组空间相邻像素进行分割标记的概率。因此,集合中像素之间的更高阶更丰富的依赖关系可以由CNN隐式建模。然后通过光流建立时间依赖关系,所得到的MRF模型结合了用于解决视频对象分割的空间和时间线索。然而,由于其中非常高阶的依赖关系,在MRF模型中执行推理非常困难。为此,作者提出了一种新颖的嵌入CNN的近似算法来有效地执行MRF模型中的推理。该算法通过迭代交替执行两个步骤:时间融合步骤和前馈CNN步骤。通过使用一种简单的基于外观的分割CNN进行初始化,作者提出的模型性能超过了DAVIS 2017挑战赛的获奖方法,而无需借助模型集成或任何专用检测器。 4.  CosFace: 面向深度人脸识别的增强边缘余弦损失函数设计CosFace: Large Margin Cosine Loss for Deep Face Recognition 本文由AI Lab独立完成。由于深度卷积神经网络(CNN)的研究进展,人脸识别已经取得了革命性的进展。人脸识别的核心任务包括人脸验证和人脸辨识。然而,在传统意义上的深度卷积神经网络的softmax代价函数的监督下,所学习的模型通常缺乏足够的判别性。为了解决这一问题,近期一系列损失函数被提出来,如Center Loss,L-Softmax,A-Softmax。所有这些改进算法都基于一个核心思想:增强类间差异并且减小类内差异。 在本文中,作者从一个新的角度来解决这个问题,并设计了一个新的损失函数,即增强边缘余弦损失函数(LMCL)。更具体地说,通过对特征向量和权向量的L2归一化,把softmax损失函数转化为余弦损失函数,这样做消除了半径方向的变化,并在此基础上引入了一个余弦边界值m来进一步最大化所学习的特征在角度空间的决策间距。因此,采用这种归一化和增强余弦决策边距的方法,能够更有效的起到最大化类间差异和最小化类内差异的作用。作者在最权威的人脸公开测试集上进行了实验评估,这些测试集包括MegaFace Challenge, Youtube Faces (YTF),和Labeled Face in the Wild (LFW),取得了极其优异的性能,验证了研发的新方法的有效性。 5.  类人化标注:多样性和独特性图像标注Tagging like Humans: Diverse and Distinct Image Annotation 本文由 AI Lab主导完成。作者提出了一种全新的自动图像标注的生成式模型,名为多样性和独特性图像标注(D2IA)。受到人类标注集成的启发,D2IA将产生语义相关,独特且多样性的标签。第一步,利用基于行列式点过程(DPP)的序列采样,产生一个标签子集,使得子集中的每个标签与图像内容相关,且标签之间语义上是独特的(即没有语义冗余)。第二步,对DPP模型加上随机扰动得到不同的概率分布,进而可以通过第一步中的序列采样产生多个不同的标签子集。作者利用生成对抗网络(GAN)来训练D2IA,在两个基准数据集上开展了充分的实验,包括定量和定性的对比,以及人类主观测试。实验结果说明,相对于目前最先进的自动图像标注方法,本文的方法可以产生更加多样和独特的标签。 6.  用当前重构过去的正则化RNN的描述生成Regularizing RNNs for Caption Generation by Reconstructing The Past with The Present 本文由 AI Lab主导完成。近年来,基于编码-解码框架的描述生成技术被广泛的研究并应用于不同的领域,如图像的描述生成和代码的注释生成等。本文提出了一种新的名为自动重构网络(ARNet)的框架,这种框架可以与传统的编解码框架相结合,并以端到端的方式对输入数据生成描述。ARNet使用RNN中当前时刻的隐状态去重构前一个时刻的隐状态,基于此,ARNet可以鼓励当前时刻的隐状态去包含前一个时刻隐状态的更多信息,同时这样可以对RNN中的隐状态的变化起到正则化的作用。实验表明,本文所提出的ARNet在图像描述和代码注释任务上可以提高现今编解码网络的性能。另外,ARNet可以显著地缓解描述生成技术中训练过程与推断过程的不一致的问题。 7.  视频描述的重构网络Reconstruction Network for Video Captioning 本文由 AI Lab主导完成。在论文中,利用自然语言描述视频序列的视觉内容使这个问题得到解决。不同于以前的视频生成描述工作,主要利用视频内容中的线索生成语言描述,本文提出一个重构网络(RecNet)和编码器- 解码器- 重构器结构,该结构可同时利用前向信息流(从视频到语句)和后向信息流(从语句到视频)生成视频描述。具体来说,编码器 – 解码器利用前向信息流产生基于被编码视频语义特征的句子描述。作者设计了两种重构器来利用后向信息流,基于解码器的隐藏状态序列重构视频特征。由编码器 – 解码器得到的传统损失和由重构器造成的重构损失以端到端的形式联合训练RecNet。在基准数据集上的实验结果表明,所提出的重构器可以增强编码器 – 解码器模型性能,并可显著提高视频描述的准确性。8.  基于门限融合网络的图像去雾方法Gated Fusion Network for Single Image Dehazing 本文与中国科学院信息工程研究所、加州大学默赛德分校等合作完成。本文提出一种基于门限融合网络的雾霾图像的复原方法。该门限融合网络由一个编码解码网络构成。其中,编码网络用于对雾霾图像本身及其多种变换图像进行特征编码,解码网络则用于估计这些变换图像对应的权重。具体而言,对一张雾霾图像,作者对其进行多种变换,包括图像白平衡、对比度增强和伽马矫正等操作提取图像内部的不同颜色或对比度特征,然后将得到的变换图像输入到门限融合卷积神经网络中,利用神经网络对雾霾图像的每个变换图像估计一个权重矩阵,再利用权重矩阵对所有的变换图像进行融合获得最终的去雾结果图。另外,为了去除恢复结果中容易出现的光圈效应,作者提出了多尺度门限融合网络,可以有效增加网络感知野并减少光圈效应。在大量合成图片和真实图片上的实验证明作者提出的方法可以有效恢复雾霾图像的细节信息。 9.  基于双向注意融合机制和上下文门控的密集视频描述Bidirectional Attentive Fusion with Context Gating for Dense Video Captioning 本文由 AI Lab主导完成。密集视频描述是一个时下刚兴起的课题,旨在同时定位并用自然语言描述一个长视频中发生的所有事件或行为。在这个任务中,本文明确并解决了两个挑战,即:(1)如何利用好过去和未来的信息以便更精确地定位出事件,(2)如何给解码器输入有效的视觉信息,以便更准确地生成针对该事件的自然语言描述。第一,过去的工作集中在从正向(视频从开头往结尾的方向)生成事件候选区间,而忽视了同样关键的未来信息。作者引入了一种双向提取事件候选区间的方法,同时利用了过去和未来的信息,从而更有效地进行事件定位。第二,过去的方法无法区分结束时间相近的事件,即给出的描述是相同的。为了解决这个问题,作者通过注意力机制将事件定位模块中的隐状态与视频原始内容(例如,视频C3D特征)结合起来表征当前的事件。进一步地,作者提出一种新颖的上下文门控机制来平衡当前事件内容和它的上下文对生成文字描述的贡献。作者通过大量的实验证明了所提出的注意力融合的事件表征方式相比于单独地使用隐状态或视频内容的表征方式要表现得更好。通过将事件定位模块和事件描述模块统一到一个框架中,本文的方法在ActivityNet Captions数据库上超过了之前最好的方法,相对性能提升100%(Meteor分数从4.82到9.65)。 10.  基于多阶段生成对抗网的延时摄影视频的生成Learning to Generate Time-Lapse Videos Using Multi-Stage Dynamic Generative Adversarial Networks 本文由 AI Lab主导完成。在户外拍摄一张照片之后,我们可以预测照片里面接下来发生的事情吗?比如,云彩会怎么移动?作者通过展示一个两阶段的生成对抗网来生成逼真的延时摄影视频对这个问题进行了回答。给定第一帧图像,本文的模型可以预测未来帧。在其两阶段模型里面,第一个阶段生成具有逼真内容的延时摄影视频。第二个阶段对第一个阶段的结果进行优化,主要体现在增加动态的运动信息,使之与真实的延时摄影视频更加接近。为了使最终生成的视频具有生动的运动信息,作者引入格拉姆矩阵来更加精确地描述运动信息。作者建立了一个大规模的延时摄影视频数据集,并且在这个数据集上面测试了其方法。通过使用该模型,可以生成分辨率为128×128,多达32帧的逼真的延时摄影视频。定性和定量实验都证明该方法相比已有最好模型的优越性。下载地址:https://arxiv.org/abs/1709.07592 11.  VITAL:对抗式学习之视觉跟踪VITAL: VIsual Tracking via Adversarial Learning 本文与澳大利亚阿德莱德大学、香港城市大学、加州大学默赛德分校等合作完成。现有的检测式跟踪的框架由两个阶段组成,即在目标物体周围大量采样和对每个样本进行正负分类。现有的基于深度学习结构的检测式跟踪的效果受限于两个问题。第一,每一帧中正样本高度重叠,他们无法捕获物体丰富的变化表征。第二,正负样本之间存在严重的不均衡分布的问题。本文提出VITAL这个算法来解决这两个问题。为了丰富正样本,作者采用生成式网络来随机生成遮罩。这些遮罩作用在输入特征上来捕获目标物体的一系列变化。在对抗学习的作用下,作者的网络能够识别出在整个时序中哪一种遮罩保留了目标物体的鲁邦性特征。与此同时,在解决正负样本不均衡的问题中,本文提出了一个高阶敏感损失来减小简单负样本对于分类器训练的影响。在标准数据库中大量的实验证明,本文提出的跟踪器优于目前已有的方法。 12.  再访空洞卷积: 一种简单的弱监督和半监督语义分割方法Revisiting Dilated Convolution: A Simple Approach for Weakly- and Semi- Supervised Semantic Segmentation 本文与美国伊利诺伊大学香槟分校、新加坡国立大学合作完成。尽管弱监督语义分割已经取得了突出的进展,但相比于全监督的语义分割,弱监督语义分割效果依然不理想。作者观察到这其中的效果差距主要来自于仅仅依靠图像级别的标注,无法得到密集完整的像素级别的物体位置信息用来训练分割模型。本文重新探索空洞卷积并且阐明了它如何使分类网络生成密集的物体定位信息。通过依靠不同的倍率的空洞卷积来显著增大卷积核的感受野,分类网络能定位物体的非判别性区域,最终产生可靠的物体区域,有助于弱监督和半监督的语义分割。尽管该方法过程简单,但是能取得目前最高的语义分割性能。具体地说,该方法在弱监督语义分割和半监督语义分割的情况下,在Pascal VOC 2012测试集上能达到目前最高的60.8%和67.6% mIOU。 13.  使用语义保持对抗嵌入网络的zero-shot视觉识别Zero-Shot Visual Recognition using Semantics-Preserving Adversarial Embedding Networks 本文与南洋理工大学、哥伦比亚大学、浙江大学合作完成。本文提出了一种称为语义保持敌对嵌入网络(SP-AEN)的新型框架,用于zero-shot视觉识别(ZSL),其中测试图像及其类别在训练期间都是不可见的。 SP-AEN旨在解决固有的问题 – 语义丢失 – 在基于嵌入的ZSL的流行家族中,如果某些语义在训练期间不好被区分,则在训练期间会被丢弃,但是对测试样本是有意义的。具体而言,SP-AEN通过引入独立的视觉 – 语义空间嵌入来防止语义损失。该嵌入将语义空间分解为两个可争议相互矛盾的目标的两个子空间:分类和重建。通过对这两个子空间的对抗学习,SP-AEN可以将重构子空间的语义转移到可区分子空间,从而实现对未见类的zero-shot识别。与以前的方法相比,SP-AEN不仅可以改善分类效果,还可以生成照片般真实的图像,显示语义保存的有效性。在CUB,AWA,SUN和aPY上,SP-AEN的harmonic平均值分别为12.2%,9.3%,4.0%和3.6%,明显优于最先进的ZSL方法。 14.  用于跨模态检索的自监督对抗哈希网络Self-Supervised Adversarial Hashing Networks for Cross-Modal Retrieval 本文与西安电子科技大学、悉尼大学合作完成。由于深度学习的成功,最近跨模式检索获得了显着改进。但是,仍然存在一个关键的瓶颈,即如何缩小多模态之间的距离,进一步提高检索的准确性。本文提出了一种自我监督对抗哈希(SSAH)方法,这是早期试图将对抗性学习纳入以自我监督方式的跨模态哈希研究中。这项工作的主要贡献是作者采用了几个对抗网络来最大化不同模态之间的语义相关性和表示一致性。另外,作者利用自我监督的语义网络以多标签注释的形式发现高级语义信息,指导特征学习过程以保持共同语义空间和海明空间中的模态之间的关系。对三个基准数据集进行的大量实验表明,所提出的SSAH优于最先进的方法。 15.  左右非对称层跳跃网络Left/Right Asymmetric Layer Skippable Networks 本文与复旦大学合作完成。最近的神经科学研究表明,左右大脑在处理低空间频率和高空间频率的信息时是非对称的。受到这项研究的启发,作者提出了一种新的左右非对称层跳跃网络,用于由粗到精的物体分类。该网络包含两个分支来同时处理粗粒度与细粒度分类。同时,作者首次提出了层跳跃机制,它学习了一个门控网络来决定是否在测试阶段来略过某些层。层跳跃机制赋予了该网络更好的灵活性以及更大的容量。作者在多种常用数据库上进行了测试,结果表明该网络在处理由粗到精的物体分类问题上优于其他方法。 16.  利用空间变化循环神经网络对动态场景去模糊Dynamic Scene Deblurring Using Spatially Variant Recurrent Neural Networks 本文与南京理工大学、加州大学默塞德分校等合作完成。由于相机抖动,景深和物体运动,动态场景去模糊是空间变化的。已有的利用先验图像信息或者庞大的深度神经网络的方法无法有效地处理这个问题,同时他们计算开销很大。与已有的方法不同,作者提出一个空间变化的神经网络来解决动态场景去模糊。作者提出的算法包含了三个卷积神经网络和一个循环卷积神经网络。其中卷积神经网络用来提取特征,学习循环卷积神经网络的系数和图像重建。在卷积神经网络抽取的特征指引下,循环卷积神经网络恢复出清晰的图像。作者的分析表明,该算法具有较大的接受范围,同时模型尺寸较小。与此同时,本文分析了空间变化循环卷积网路和反卷积的关系。分析表明空间变化循环卷积网络能够对反卷积建模。作者以端到端训练的方式,提出一个较小的深度学习模型,其速度优于已有的方法。在标准数据库上定量和定性的评估表明该方法在精度,速度和模型大小方面优于已有的方法。 17.  利用深度往复式高动态范围转换进行图像校正Image Correction via Deep Reciprocating HDR Transformation 本文与大连理工大学、香港城市大学合作完成。图像校正的目的在于对一幅输入图像进行调整,使其视觉柔和的同时在过曝光和欠曝光的区域恢复出图像细节。然而,现有的图像校正的方法主要依据于图像像素操作,使得从过曝光或者欠曝光区域恢复出图像细节十分困难。为此,作者回顾了图像生成的过程,并注意到细节均保留在高动态区域中,人眼可感知。然而,在非线性成像生成低动态范围的过程中有部分细节丢失。基于此发现,作者将图像修复问题归为深度往复式高动态范围转换的过程,同时提出一个创新的方法——首先从高动态范围域中恢复出丢失的细节,然后将此细节转换到低动态范围的图像中作为输出结果。以这种方式,作者提出一个端到端的深度往复式高动态范围转换模型。该模型由两个卷积神经网络组成,第一个功能为高动态范围细节重建,另外一个为低动态范围细节校正。在标准数据库下的实验表明,相比于已有的图像校正方法,作者提出的方法更加有效。 18.  端到端的卷积语义嵌入End-to-end Convolutional Semantic Embeddings 本文与美国罗切斯特大学合作完成。最近已经广泛研究了图像和句子的语义嵌入。深度神经网络在学习丰富而鲁棒的视觉和文本表示方面的能力为开发有效的语义嵌入模型提供了机会。目前,最先进的语义学习方法首先采用深度神经网络将图像和句子编码到一个共同的语义空间中。然后,学习目标是确保匹配图像和句子对之间的相似度比随机抽样对更大。通常,卷积神经网络(CNN)和递归神经网络(RNN)分别用于学习图像和句子表示。一方面,已知CNN在不同级别产生强健的视觉特征,并且RNN以捕获顺序数据中的依赖性而闻名。因此,这个简单的框架可以充分有效地学习视觉和文本语义。另一方面,与CNN不同,RNN不能产生中间级别(例如,文本中的短语级别)表示。因此,只有全局表示可用于语义学习。由于图像和句子中的层次结构,这可能会限制模型的性能。在这项工作中,作者应用卷积神经网络来处理图像和句子。因此,通过在卷积层上引入新的学习目标,作者可以采用中级表示来辅助全局语义学习。实验结果表明,本文提出的具有新学习目标的文本CNN模型导致比现有技术方法更好的性能。 19.  一种有效防止负迁移或灾难性遗忘的深度人脸检测的自适应算法Deep Face Detector Adaptation without Negative Transfer or Catastrophic Forgetting 本文与美国弗罗里达中央大学、Adobe Research合作完成。没有任何一个人脸检测器能够适用于所有场景,所以如何使检测器自适应不同场景从而提高在目标场景的准确率,就变得很有必要。作者提出一种新颖的针对深度人脸检测器的自适应算法。给定目标域的代表性的图像,无论它们是否被标记,该算法都能够有效的将检测器针对目标域进行优化。这个过程不需要存储任何源域的数据——原来用以训练检测器的数据。作者设计了一种残差目标函数来显式的避免在迁移学习中臭名昭著的负转移问题。与此同时,它不会对来自源域的知识造成灾难性的干扰或遗忘,使得自适应以后的人脸检测器不仅在目标域的准确率更高, 并且在源域中与原始检测器保持大致相同的性能。从某种角度看,该方法和很流行的自然语言模型插值技术有一定相似,它有可能开创一个新的方向:如何从不同域的数据逐步训练好的人脸检测器。作者报告了广泛的实验结果,以验证在两种深度人脸检测器上的效果。 20.  基于几何指导下的卷积神经网络的视频表征自监督学习Geometry-Guided CNN for Self-supervised Video Representation learning 本文与清华大学、北京邮电大学、加州大学圣地亚哥分校、斯坦福大学合作完成。人工标注视频以训练高质量的视频识别模型通常费力且昂贵,因此,在学习视频表征的方向上,已经有一些兴趣和工作来探索不需要人工监督的、有噪声的、和间接的训练信号。然而,这些信号往往很粗糙——为整段视频提供监督,或者很微弱——比如强制机器解决对人来说都很难的识别问题。在本文中,作者改为探索不需人工标注的几何信息,这是辅助视频表征的自监督学习的一种全新的信号。作者将像素级几何信息从合成图像里提取为流场或者从3D电影里提取为视差图。虽然几何和高级的语义看似不相关,但令人惊讶的是,作者发现由这些几何线索训练的卷积神经网络可以被有效地应用于语义视频理解的任务。此外,作者还发现渐进式的训练策略——而不是盲目地将不同的几何线索源汇集在一起——可以为视频识别提供更好的神经网络。在视频动态场景识别和动作识别的结果表明,作者的几何指导下的卷积神经网络明显优于其他类型的自监督信号训练的竞争方法。 21.  学习在黑暗中看世界Learning to See in the Dark 本文与美国伊利诺伊大学香槟分校、Intel Labs合作完成。在低光照甚至黑暗条件下拍出高质量的照片一直是非常有挑战性的科研问题,这主要是由于低光子数和低信噪比给相机成像带来了很大的困难。曝光时间过短会给图像带来噪点,而长时间曝光又容易导致图像模糊,费时费力,在现实中可行性低。传统算法提出了各种去噪、去模糊和增强技术,但是它们的有效性在极端条件下是非常有限的,例如夜晚的视频成像。为了支持基于深度学习的低光图像处理流水线的开发,作者收集了一个大规模的夜间成像数据集,它由短曝光夜间图像以及相应的长曝光参考图像组成。使用这个数据集,作者开发了一个基于全卷积网络端到端训练的低光图像处理流水线。该网络直接读入原始传感器数据,然后前向输出一张高清图像。这个技术克服了传统图像处理流水线需要多模块且夜间成像效果差的不足。本文展示了新数据集颇具前景的结果,并分析了影响性能的因素,以及未来研究的机会。未来智能实验室是人工智能学家与科学院相关机构联合成立的人工智能,互联网和脑科学交叉研究机构。未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)云脑研究计划,构建互联网(城市)云脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文” via: http://mp.weixin.qq.com/s?__biz=MzIwOTA1MDAyNA==&mid=2649847937&idx=3&sn=b4c29a8396570a0481f2bbe75edce92d&scene=0#wechat_redirect

 

爱可可-爱生活   网页版 2017-08-17 17:47
【AI相关会议Deadline倒计时大列表】“AI Conference Deadlines” http://t.cn/RCwOwuK

 

回复