微软亚洲研究院CVPR论文DA-GAN,让计算机创造奇妙“新物种”

更新于 2018年3月9日 机器学习
我来说两句
wx:   网页版 2018-03-08 20:20
公告板 会议活动 视觉 语音 资源 自然语言处理 CVPR PDF 傅建龙 行业动态 会议 活动 论文 问答系统
「突破特征表达方式:微软亚洲研究院CVPR论文DA-GAN,让计算机创造奇妙“新物种”」   新智元推荐  来源:微软研究院AI头条 【新智元导读】还记得那个能自己写诗的微软小冰吗?很多人看到小冰的诗之后惊叹原来机器也有了创造力。最近,微软亚洲研究院研发的DA-GAN技术让机器绘画创造也成为了可能,只要人们用文字描述一下自己想要的画面,计算机便可以在几毫秒之内生成多个与描述吻合的形象。也许在不久的将来,DA-GAN技术将开启一个人人都是创造者的时代。 当人们用文字描述“我想要一只腹部、胸部为白色,头顶灰色,翅膀有白色翅斑的小鸟”时,计算机便可以通过DA-GAN在几毫秒的时间内生成多个与文字描述高度吻合的形象(如下图)。这些由计算机生成的鸟栩栩如生,完全符合人们期待的鸟的形象,不过它有可能是真实存在于现实世界中的,也有可能是系统根据鸟类特征和文字描述“创造”出来的一只“鸟”。 DA-GAN生成的“腹部、胸部为白色,头顶灰色,翅膀有白色翅斑的鸟”(注意:该图片中的鸟在现实世界中并不存在) DA-GAN研究团队的技术突破得益于特征表达技术的发展。以往的特征表达工作,多是让机器理解图片并抽取特征,然后再对图片进行分类;而DA-GAN则有些反向思维的意味,在提取图片特征后,将特征在人类的视觉空间中还原出来。 以上文所列举的鸟为例,系统首先要能够根据现实世界的鸟,总结出鸟的结构和特征,然后再根据用户的需求,输出他们所需要的鸟。之所以选择鸟类作为研究对象,是因为鸟类的特征非常丰富,仅头部就有几十种特征,鸟类专家就是利用这些细微的差别来判断鸟的种类,而特征丰富就意味着可以更好地去验证模型的生成能力。 微软亚洲研究院研究员傅建龙表示,“在训练DA-GAN系统时,我们先让它‘见’过很多种类的鸟,就如同一个人认识了红苹果后,看到绿色的苹果,也可以从它的外形中判断出这是苹果一样。DA-GAN依据所接触的鸟类图片,学会了判断鸟的经验性常识。” 与传统的数据训练模式需要pair data(数据对)不同,DA-GAN不需要将文本与真实的鸟一一对应,而是将原始图片分割成不同的部分(暂称该部分的样本为T),例如头部、身体、尾巴、姿势等,不同的部分分别投射到一个“隐空间”(暂称该部分的生成样本为T’),然后通过大量的图片训练,去验证T-T’对应的精确程度,也就是去不断验证该“隐空间”的好坏,从而不断迭代,确保从T-T’的过程并非随机产生,而是保持一定的规则,进而让“隐空间”的模型逐步趋于完善。这个过程可谓是DA-GAN系统最为核心的创新所在,也是它能够更加智能、真正具有举一反三学习能力的关键点。DA-GAN深度注意力编码流程图 接下来,DA-GAN就可以基于该模型创作用户想要的鸟类了,正如文章开头所描述的,输入你的需求,一只栩栩如生的鸟就会相应生成。它可能是一只自然界里真实存在的鸟,也可能是一只拥有A种鸟类的头部特征、B种鸟类的身体特征、C种鸟类的尾部特征以及任意姿态的一只“想象中的鸟”,而在现实世界里并没有这样的鸟类,但它看上去就是一只真正的“鸟”。(a) 文字到图像生成 (b) 物体类别变换 傅建龙表示,“目前,我们只将鸟类分成了4个部分,这是我们计算出来的映射相对合理,同时系统代价较小的可行的方式。当然也可以将鸟分为10个、30个部分,那样模型会越来越精确,但系统代价可能也会成倍增加。” 除了鸟类,DA-GAN还可以用于任何与图片相关的创作,例如此前风行的基于真实人脸生成卡通人脸的小程序,其实大部分只是将纹理附着到了原始照片上,如果利用DA-GAN,则可以做得更像是艺术家的现场漫画写生,它可以是梵高风格、莫奈风格、漫画风格等等,用户可以进行任意转换。对于DA-GAN来说,最重要的是早期的数据训练,图片越多质量越高。而且其分辨率已经从其他相关技术能够达到的64*64升级到了256*256,分辨率的提高,意味着图片每个部分所包含的细节信息更加完善,也正因为细节的丰富,才使得DA-GAN的表现在与真实世界的对比中优于同类技术。 与此同时,DA-GAN生成的众多新的图片,又可以反哺给该系统,从而让它拥有更多的学习数据。也就是说,只要基于少量的原始数据,DA-GAN就可以产生更多“真实”的练习数据,大大改善某些领域真实数据缺乏的问题。利用DA-GAN的这一优势,研究团队实现了业内首次在鸟类数据集中增加生成数据,并将系统的准确度提升了两个百分点。 数据增强结果姿态变换任务 图中每组图片的第一列是source,第二列是target,第三列是DA-GAN生成的鸟类:保持与第一列的鸟类类别一致,但具有第二列的鸟类姿态 在可触摸的未来,或许,DA-GAN技术将开启一个人人都是创造者的时代。只要你的需求输入它能够读懂,哪怕是你脑海中幻想出来的物体和场景,它都能“画”出来。而由DA-GAN所描绘出来的虚拟世界,可能一点都不比文学家、艺术家创作出来的场景逊色。 不仅如此,让已经灭绝的动植物,通过记载文字的描述重新跃然纸上;为安防领域提供更真实的犯罪嫌疑人画像;帮助人们贴合自身的情况试穿网络售卖的衣物等等,还有更多DA-GAN技术的应用场景,等待大家去想象。同时,傅建龙也表示,未来随着技术的不断发展,更多可以生成逼真图片和影像的技术将会诞生,如何辨别真伪也是需要科研人员以及大众思考和解决的问题。 论文链接:https://arxiv.org/pdf/1802.06454.pdf 本文经授权转载自“微软研究院AI头条”,点击阅读原文查看原文 【2018新智元AI技术峰会倒计时 22天】大会早鸟票已经售罄,现正式进入全额票阶段。 2017年,作为人工智能领域最具影响力的产业服务平台——新智元成功举办了「新智元开源·生态技术峰会」和「2017AIWORLD 世界人工智能大会」。凭借超高活动人气及行业影响力,获得2017年度活动行“年度最具影响力主办方”奖项。 其中「2017AIWORLD 世界人工智能大会」创人工智能领域活动先河,参会人次超5000;开场视频在腾讯视频点播量超100万;新华网图文直播超1200万;2018年的3月29日,新智元再汇AI之力,共筑产业跃迁之路。 在北京举办2018年中国AI开年盛典——2018新智元AI技术峰会,本次峰会以“产业·跃迁”为主题,特邀诺贝尔奖评委\德国人工智能研究中心创始人兼CEO Wolfgang Wahlster 亲临现场与谷歌、微软、亚马逊、BAT、科大讯飞、京东和华为等企业重量级嘉宾,共同研讨技术变革,助力领域融合发展。 新智元诚挚邀请关心人工智能行业发展的各界人士 3 月 29 日亲临峰会现场,共同参与这一跨领域的思维碰撞。 关于大会,请关注新智元微信公众号或访问活动行页面:http://www.huodongxing.com/event/8426451122400 【扫一扫或点击阅读原文抢购大会门票】 via: http://mp.weixin.qq.com/s?__biz=MzI3MTA0MTk1MA==&mid=2652014574&idx=5&sn=05fc1f305392582a86e8e447d205cbd1&scene=0#wechat_redirect

 

回复