第1138期AI100_机器学习日报(2017-10-30)

更新于 2017年10月31日 机器学习
我来说两句
0 2017年10月31日

2017-10-30 日报 机器学习

AI100_机器学习日报 2017-10-30

@好东西传送门 出品,由@AI100运营, 过往目录http://ai100.com.cn

订阅:关注微信公众号 AI100(ID:rgznai100,扫二维码),回复“机器学习日报”,加你进日报群

微信公众号:rgznai100

本期话题有:

全部24 深度学习13 算法12 视觉8 资源8 自然语言处理5 应用5 会议活动5 知识工程1 经验总结1

用日报搜索找到以前分享的内容: http://ml.memect.com/search/

新智元   网页版 2017-10-30 14:49
视觉 资源 数据
【新智元导读】昨天 NVIDIA Research 网站发布了一篇颇为震撼的GAN论文:Progressive Growing of GANs for Improved Quality, Stability, and Variation,通过使用逐渐增大的GAN网络和精心处理的CelebA-HQ数据集,实现了效果令人惊叹的生成图像。论文、数据集、代码都已经开放可获取,一起来看。…全文: http://m.weibo.cn/5703921756/4168562287084743

 

wx:专知内容组   网页版 2017-10-31 06:36
会议活动 深度学习 视觉 算法 应用 知识工程 资源 自然语言处理 Andrew Mccallum Gan Adversarial Gan Generalization ICLR Lung Cancer Numbers Complex-Valued PDF Yann Lecun Yoshua Bengio 行业动态 会议 机器人 矩阵 迁移学习 强化学习 神经网络 统计 问答系统 信息检索 预测 知识库
「【重磅】深度学习顶会 ICLR 2018 匿名提交论文列表(附pdf下载链接)」【导读】ICLR,全称为「International Conference on Learning Representations」(国际学习表征会议),2013 年才刚刚成立了第一届。这个一年一度的会议虽然今年2017年办到第六届,已经被学术研究者们广泛认可,被认为「深度学习的顶级会议」。这个会议由位列深度学习三大巨头之二的 Yoshua Bengio 和 Yann LeCun 牵头创办。Yoshua Bengio 是蒙特利尔大学教授,深度学习三巨头之一,他领导蒙特利尔大学的人工智能实验室(MILA)进行 AI 技术的学术研究。MILA 是世界上最大的人工智能研究中心之一,与谷歌也有着密切的合作。 Yann LeCun 就自不用提,同为深度学习三巨头之一的他现任 Facebook 人工智能研究院(FAIR)院长、纽约大学教授。作为卷积神经网络之父,他为深度学习的发展和创新作出了重要贡献。ICLR 采用Open Review 评审制度。Open Review 则非常不同,根据规定,所有提交的论文都会公开姓名等信息,并且接受所有同行的评价及提问(open peer review),任何学者都可或匿名或实名地评价论文。而在公开评审结束后,论文作者也能够对论文进行调整和修改。目前 ICLR 的历届所有论文及评审讨论的内容,都完整地保存在 OpenReview.net 上,它也是 ICLR 的官方投稿入口。OpenReview.net 是马萨诸塞大学阿默斯特学院 Andrew McCallum 为 ICLR 2013 牵头创办的一个公开评审系统,秉承公开同行评审、公开发表、公开来源、公开讨论、公开引导、公开推荐、公开 API 及开源等八大原则,得到了 Facebook、Google、NSF 和马萨诸塞大学阿默斯特中心等机构的支持。以下为论文列表:来源:https://openreview.net/group?id=ICLR.cc/2018/Conference专知进行关键词统计信息如下:可以看出 深度学习 神经网络 生成式对抗网络、强化学习、循环神经网络等等是投稿论文热点。论文列表:下载地址:https://openreview.net/pdf/b9ca5077f6a0c9481b172ad051d0bff48f2949c2.pdf下载地址:https://openreview.net/pdf/a3ee124c0cc5f02acc976ae67f563ea632fbe23d.pdf关键词:complex numbers complex-valued neural network multi-layer perceptron architecture下载地址:https://openreview.net/pdf/4127a6a37a17384ef2d001931450550a33b69acd.pdf关键词:Knowledge base embedding下载地址:https://openreview.net/pdf/4e9e3d851b60e8aa75b53c344e0ed3988c5300fa.pdf下载地址:https://openreview.net/pdf/9558215bb47a09abcef80ac65b52474a09da0be1.pdf下载地址:https://openreview.net/pdf/c94761f85f8bdbd8b9c53261e25b4ec0258406e8.pdf关键词:hypergraph representation learning tensors下载地址:https://openreview.net/pdf/53c0248eb3e4d4fff5dd84d97ce5132f5d5861bf.pdf关键词:deep learning complex-valued neural networks下载地址:https://openreview.net/pdf/21bc670e37fcb28f944d33f287f626306b316875.pdf关键词:Deep Learning Neural Networks Information Theory Generative models下载地址:https://openreview.net/pdf/0d736ada7e156b950fdd5eb287d9f95a22d9c54c.pdf关键词:generative models one-shot learning metalearning pixelcnn hierarchical bayesian omniglot下载地址:https://openreview.net/pdf/36668c5f207557f4d40dcb81393774d2f0908266.pdf关键词:action segmentation video labeling temporal networks下载地址:https://openreview.net/pdf/9cb1db4642c01584e6ca3c886e730f3743542a24.pdf关键词:Tensor Decomposition Tensor Networks Stochastic Gradient Descent下载地址:https://openreview.net/pdf/a2f569c8fabb4aa65611d077829bfff2946df00d.pdf关键词:variational autoencoder noise modelling representation learning generative model disentanglement下载地址:https://openreview.net/pdf/62a904438b7296e9a4a604381c06ee828574d98b.pdf关键词:uncertainty estimation deep learning Bayesian learning batch normalization下载地址:https://openreview.net/pdf/ac74faafa0bba2c7808c4d9991b7b711ee064038.pdf关键词:conversation model seq2seq self-play reinforcement learning下载地址:https://openreview.net/pdf/40fc8cdd76f4aba7cb8069509d9e5ddf2523ad35.pdf关键词:Reinforcement Learning Multi-task Learning Curriculum Learning下载地址:https://openreview.net/pdf/7efb4d89e4f175f4cdecd4783b8b5a5d8af797cf.pdf关键词:SVD Latent Dimensions Dimension Reductions Machine Learning下载地址:https://openreview.net/pdf/5a5d920c9b7b9b39015b595683426873a38b3e8b.pdf关键词:reinforcement learning transfer learning下载地址:https://openreview.net/pdf/d18b693b43b8866425b41c5a3ae6e4de9b45658d.pdf关键词:graph neural networks message passing label propagation equivariant representation下载地址:https://openreview.net/pdf/7673e6cf0b07d195633b82c9905e205759f686e9.pdf关键词:somatic mutation variant calling cancer liquid biopsy early detection convolution deep learning machine learning lung cancer error suppression mutect下载地址:https://openreview.net/pdf/3da2a17bf6bec5ff1a8f0dd52c100ceb17694e76.pdf关键词:unsupervised learning representation learning deep learning下载地址:https://openreview.net/pdf/82eaeeca82af695721cc73403066982e93ef60d2.pdf下载地址:https://openreview.net/pdf/f5434c16d9149ba2ecf5dff8e5b5a34dce8e600b.pdf下载地址:https://openreview.net/pdf/bd3b0e1996f51903fe07077607eeae4c2b1bbafd.pdf关键词:VAE Generative Model Vision Natural Language下载地址:https://openreview.net/pdf/3cf45610469af5c3ecdef0638ed8c83937f59c27.pdf关键词:Deep learning model compression下载地址:https://openreview.net/pdf/53e7e6f6b94dca95f61fbed0fcaf988215ad2083.pdf关键词:Reinforcement Learning TD Learning DQN下载地址:https://openreview.net/pdf/424ef3a312b7502cf11a36f4693095fb81db7ecb.pdf关键词:GAN WGAN下载地址:https://openreview.net/pdf/98bba828944f13faf32019e9400c7ce9615e175e.pdf下载地址:https://openreview.net/pdf/efa84800de59a703122ea1f328a6a3c1031e1cfa.pdf关键词:fraternal dropout activity regularization recurrent neural networks RNN LSTM faster convergence下载地址:https://openreview.net/pdf/e58a67feb2152ae4cd53042cbb8762df63757b73.pdf关键词:image captioning representation learning interpretability rnn multimodal vision to language下载地址:https://openreview.net/pdf/0e647e0120fb1714b378c172dbf1934d6c901237.pdf关键词:reinforcement learning pretrained deep learning perception algorithmic下载地址:https://openreview.net/pdf/3aabac9a13b73eaca48e53acec3f071ba9fb96b9.pdf关键词:Adversarial Examples Detection Saliency Model Interpretation下载地址:https://openreview.net/pdf/b7aafb6a6dbb956dea1e53cf9f4a58ec39e9513b.pdf关键词:reinforcement learning hierarchy options inference下载地址:https://openreview.net/pdf/7ff2f7d7dba366ae35b85d4dbac7d2a46c59007e.pdf关键词:VAE Vision Natural Language下载地址:https://openreview.net/pdf/bfd58631af339d8043d30210ba8c2ad9d965cc3e.pdf关键词:Applications Security in Machine Learning Fairness and Security Model Compression下载地址:https://openreview.net/pdf/69170f53ffe9f431f2c54cd1a453add292d356cb.pdf关键词:neural network reinforcement learning natural language processing machine translation alpha-divergence下载地址:https://openreview.net/pdf/4122d80b6740caf9641d8bbc9dc1cf00e2259f51.pdf下载地址:https://openreview.net/pdf/554e41c5738f9a1f35ea2eae5a31bebad2354fe6.pdf关键词:Information Bottleneck Deep Neural Networks下载地址:https://openreview.net/pdf/db367bd113d779803710f2c0b70e6a13fa0e508d.pdf关键词:generative adversarial networks Wasserstein GAN generalization theory下载地址:https://openreview.net/pdf/c8e2421cd23954c4dc741562cc8192c356fd3068.pdf关键词:Deep Learning Robotics Artificial Intelligence Computer Vision下载地址:https://openreview.net/pdf/00e5c4aefc80d0396ee745c032d27e0bccb43079.pdf下载地址:https://openreview.net/pdf/4324fa39868648281fcca9536b21bab92f264995.pdf关键词:Deep Reinforcement Learning Variational Inference Control Robotics下载地址:https://openreview.net/pdf/91cf23f41853ce25a71700dc007240032056772d.pdf关键词:embeddings下载地址:https://openreview.net/pdf/a09f1ca6968a32ebc27f80d50c9cf7afcdeaaca5.pdf下载地址:https://openreview.net/pdf/210160b60e7b9c27d7075e84fb18ad70b9641847.pdf关键词:question answering knowledge graph compositional model semantics下载地址:https://openreview.net/pdf/576e30e63197e5c48e28f9a662cf7d1f7e0a7424.pdf下载地址:https://openreview.net/pdf/6a770d7c95ac938be4c78c7d38abb92a01749769.pdf关键词:Neural Network acceleration Low Precision neural networks.下载地址:https://openreview.net/pdf/8c46133b2c265d251eb6b79476877fd072e2445e.pdf关键词:Security in Machine Learning Information Security Fairness and Privacy下载地址:https://openreview.net/pdf/6b168938dbf6014d12195848c4dc000920a179b3.pdf关键词:GANs transport下载地址:https://openreview.net/pdf/b7c56e1cd66dbf15ef3b4bc4d2aa145c07b24d94.pdf下载地址:https://openreview.net/pdf/6c1f3ff600aabd6e41f45bbef2b086a6595aea5a.pdf关键词:Reinforcement Learning Variational Inference Control下载地址:https://openreview.net/pdf/84a8906ab0166521e2bafc00d0b1a21a077f4f8d.pdf关键词:Deep learning GAN下载地址:https://openreview.net/pdf/0f1ccb61544842755137c3af63c473b6b44b5948.pdf关键词:interpreting convolutional neural networks nearest neighbors generative adversarial networks下载地址:https://openreview.net/pdf/a2fc659e794dc6e3cc0cb0d7598a70c1046fd8a9.pdf下载地址:https://openreview.net/pdf/37257d67235ce949317db3948d11ee647fcb9743.pdf下载地址:https://openreview.net/pdf/37eda3658e01744d88c216dea06c26b4595eb965.pdf下载地址:https://openreview.net/pdf/0f2afdd3f1854921fca69289a77b0a0b34922fe1.pdf关键词:Deep Reinforcement Learning mult-agent systems下载地址:https://openreview.net/pdf/c7c8805df55c3c06682680157594fc6adcc1686c.pdf关键词:optimization K-FAC natural gradient recurrent neural networks下载地址:https://openreview.net/pdf/4067d0408e56145839859729549fb5ad062a9820.pdf关键词:speech generation accent gan adversarial reinforcement memory lstm policy gradients human下载地址:https://openreview.net/pdf/cf54a1d15e4d0b075be4be9888e8810789404941.pdf关键词:privacy differential privacy machine learning deep learning下载地址:https://openreview.net/pdf/85d216249a97e2df4929959351d82854c163e077.pdf关键词:asynchronous neural network deep learning graph tree rnn下载地址:https://openreview.net/pdf/19a9932d9f73b3be2d71a8d7f335e6cb2e53236f.pdf关键词:connectivity learning multi-branch networks image categorization下载地址:https://openreview.net/pdf/8d9ca4f54cbd879c63926ba3c6a466f8593c6168.pdf关键词:fast weights RNN associative retrieval time-varying variables下载地址:https://openreview.net/pdf/d184c06b932921a0bf6988238c0adc3e99c00d9a.pdf关键词:adversarial examples generative adversarial network black-box attack下载地址:https://openreview.net/pdf/e074cf9e1b09af73e658886fd664e257da48c396.pdf下载地址:https://openreview.net/pdf/99866a78dad33243f7634f3657ba2bbbc7825f79.pdf关键词:Common-sense Physical Reasoning Intuitive Physics Representation Learning Model building下载地址:https://openreview.net/pdf/0226604602a78f0f53c9a773e1888b4efedfb0e0.pdf关键词:Awareness Prediction Seq2seq Robots下载地址:https://openreview.net/pdf/65f824e1d702c5e541a08c20c9700fd3c3c6aa8f.pdf关键词:Deep Reinforcement Learning Multi-Agent Reinforcement Learning StarCraft Micromanagement Tasks下载地址:https://openreview.net/pdf/9546b4f4eddb1629ead14f21afcee2ae6e9759b3.pdf关键词:structured attention sentence matching下载地址:https://openreview.net/pdf/7cc678302888436c96fed050dfb89b10e20932d2.pdf下载地址:https://openreview.net/pdf/5322df3532cfaefb2e27f5e75ac8f9784b494363.pdf 转自:专知 完整内容请点击“阅读原文” via: http://mp.weixin.qq.com/s?__biz=MzA4NDEyMzc2Mw==&mid=2649678295&idx=3&sn=c5f553a9a27d71475adce2184bb2ba7b&scene=0#wechat_redirect

 

ChatbotsChina   网页版 2017-10-30 11:15
深度学习 行业动态
keras中最常用深度学习的API By 阿里云云栖社区 http://t.cn/RW1952d

 

爱可可-爱生活   网页版 2017-10-30 08:30
算法 资源 分类 幻灯片 回归 迁移学习
【音乐分类/回归任务迁移学习】《Transfer learning for music classification and regression tasks》by Keunwoo Choi http://t.cn/RW3lxc4 ref:http://weibo.com/1402400261/EBYwEkQ3L

 

爱可可-爱生活   网页版 2017-10-30 06:05
深度学习 可视化
【Subgraphs:Web界面可视化深度网络(计算图)开发平台】“Subgraphs – A Deep Learning IDE” http://t.cn/RW3abUE

 

wx:   网页版 2017-10-30 21:57
会议活动 视觉 资源 Chris Rowen Felipe Hoffa Java Python 行业动态 华先胜 会议 活动 贾佳亚 书籍 孙剑
「微软成为GitHub2017年度最大贡献者 阿里巴巴排名第九为中国最高」【AI WORLD 2017世界人工智能大会倒计时 9 天】在2017年11月8日在北京国家会议中心举办的AI World 2017世界人工智能大会上,我们邀请到阿里巴巴副总裁、iDST副院长华先胜,旷视科技Face++首席科学家、旷视研究院院长孙剑博士,腾讯优图实验室杰出科学家贾佳亚教授,以及硅谷知名企业家、IEEE Fellow Chris Rowen,共论人脸识别等前沿计算机视觉技术。抢票链接:http://www.huodongxing.com/event/2405852054900?td=4231978320026大会官网:http://www.aiworld2017.com  新智元编译  来源:medium作者:Felipe Hoffa编译:Cecilia 【新智元导读】微软成为GitHub 2017年度最大贡献者,谷歌第二,亚马逊第八,阿里巴巴第九(中国最高),腾讯、百度排名分别为14、15。 谁是开源社区的最大贡献者?本文作者Felipe Hoffa查看2017年期间GitHub发布的所有PushEvent,以及今年至少收到20颗星的仓库。 以下是作者得到的结果。 通过查看GitHub2017,可以看到: 微软大约有1300名员工积极地将GitHub上的825个顶级仓库。Google约有900名员工活跃在GitHub上,他们正在将代码推送到约1100个顶级仓库。亚马逊只有134名员工活跃在GitHub上,将代码推送到158个顶级仓库。并不是所有的项目都一样:尽管Google员工给库提供的的代码比Microsoft只多了25%,但是这些库收到了更多的星(530000 vs 260000)。亚马逊仓库收到的星总数:27000个。  微软名列第一,谷歌紧随其后,而亚马逊仅排第八。 RedHat, IBM, Pivotal, Intel, 以及Facebook 亚马逊看起来远远落后于微软和谷歌,那这中间的公司有哪些?根据排名,可以看到,RedHat、Pivotal和Intel为GitHub做出了很多贡献。 RedHat排名第三。IBM与Pivotal并列第四。Intel排名第五。Facebook排名第六。 Facebook和IBM(美国)的GitHub用户数量与亚马逊相似,但是他们贡献项目收到的星比亚马逊多(尤其是Facebook): Facebook排名第六;IBM(美国)排名第七;亚马逊排名第八。 BAT贡献排名 阿里巴巴、Uber、Wix分别排第九、第十、第十一。阿里巴巴是对GitHub贡献最多、排名最靠前的中国公司。 GitHub、Aphche和腾讯分别排第十二、第十三、第十四。 百度、苹果、Mozilla分别排第15、第16、第17。 GitHub 2017年度报告 2017年,有670万名开发者新加入GitHub。其中,超过100万新加入的开发者来自美国,近70万来自中国。 GitHub上的开源项目共使用337种编程语言——JavaScript是使用最多的语言。 2017年,Python取代Java成为GitHub上第二流行的语言,今年的pull requests比去年增加了40%。  排在第4 的是Ruby,PHP和C++则分别第五和第六。Typescript的数量也在增加,几乎是去年的4倍。 今年1月,GitHub发布了主题分布引擎:仓库的tag能让你通过技术类型、行业等来探索不同主题的项目。 自这个功能发布以来,GitHub上最热门主题(不包括框架和语言项目)是机器学习。 原文地址:https://medium.freecodecamp.org/the-top-contributors-to-github-2017-be98ab854e87 深入了解AI 技术进展和产业情况,参加新智元世界人工智能大会,马上抢票! 【AI WORLD 2017世界人工智能大会倒计时 9 天】点击图片查看嘉宾与日程。抢票链接:http://www.huodongxing.com/event/2405852054900?td=4231978320026AI WORLD 2017 世界人工智能大会购票二维码:  via: http://mp.weixin.qq.com/s?__biz=MzI3MTA0MTk1MA==&mid=2652007024&idx=4&sn=263825f8d29ee9f751a519c2cb5efb56&scene=0#wechat_redirect

 

ChatbotsChina   网页版 2017-10-30 18:32
算法
入门 | 从概念到案例:初学者须知的十大机器学习算法 http://t.cn/RWnyQVx

 

机器之心Synced   网页版 2017-10-30 18:00
会议活动 深度学习 Geoffrey Hinton NIPS 会议
【终于,Geoffrey Hinton那篇备受关注的Capsule论文公开了】Geoffrey Hinton 等人备受关注的 NIPS 2017 论文《Dynamic Routing Between Capsules》已于数小时前公开。http://t.cn/RWr8GJm

 

网路冷眼   网页版 2017-10-30 18:00
自然语言处理
【Language Models, Word2Vec, and Efficient Softmax Approximations】http://t.cn/RWr8AE1 语言模型、Word2Vec和高效的Softmax近似。 ​

 

会议活动 经验总结 深度学习 视觉 算法 应用 资源 自然语言处理 CRF CVPR David Marr ICCV ICLR Miles Brundage 安全 博客 傅京生 华刚 会议 集成学习 吕洋 神经科学 神经网络 视频 书籍 数据科学 统计 屠卓文 吴田富 语言学 周少华 朱珑 朱松纯
「概率语法图模型发力,小样本学习的突破 | 焦点评论」2017年10月26日,科学期刊《Science》上刊发了知名人工智能创业公司Vicarious的一项最新研究[1] — “A generative vision model that trains with high data efficiency and breaks text-based CAPTCHAs”。CAPTCHA是Completely Automated Public Turing Test To Tell Computers and Humans Apart的缩写,指基于网络文本验证创建的全自动区分计算机和人类的图灵测试。该项研究通过提出一种新型生成式组成模型(generative compositional model):Recursive Cortical Network (RCN),使用小样本学习,在CAPTCHA上获得突破性的成果。RCN的成功表明,在推动人工智能发展的道路上,生成式组成模型,特别是上下文相关概率语法图模型和自底向上(bottom-up)/自顶向下(top-down)联合推理算法,取得了一个重要的阶段性成果。为什么这么认为?我们从以下几个方面作个简要的介绍和分析。  在CAPTCHA中(图1),对英文字母进行遮挡、变形等处理之后,人类往往仍然能够准确地识别,但这个任务却对当今流行的机器学习算法带来了巨大挑战。在CAPTCHA中,机器的识别正确率超过1%即被认为突破。而RCN在多个CAPTCHA数据库中,获得了极佳的成绩(reCAPTCHA:66.6%, BotDetect 64.4%, Yahoo: 57.4%, PayPal: 57.1%),整体上以300倍的数据有效性(data efficiency)击败了深度学习的卷积网络模型。其中,在reCAPTCHA上,对于每个字母,RCN仅使用5个训练样本,而深度学习卷积网络模型达到相似的成绩使用了二百三十万个训练样本。此外,RCN在多个任务(如单样本和小样本识别、手写数字生成等)中,均取得了优异的结果。 对于与深度学习模型比较,Vicarious的博客[2]提到:“deep learning has demonstrated many narrow super-human abilities on recognizing photos and playing games. It is important not to conflate the success of deep learning in creating a diversity of narrow intelligences as progress on the path toward general intelligences.” 深度学习在识别图像和游戏AI上显示了过人却狭隘的能力。但重要的是,不要把深度学习在狭隘智能上的成功,和通往通用智能之路上的进展混为一体。     图1.人类在字母形式上感知的灵活性。(A)人类擅长解析不熟悉的字体。(B) 相同的字母可以有很多的表现形式,人类可以从上图中识别出“A”。(C) 常识和上下文信息会影响人类对字体的感知:(i)“m”还是“u”或“n”; (ii) 同样的线条中,不同位置上的遮挡会影响对其理解为“N”还是“S”; (iii) 对形状的感知会帮助识别图中的“b,i,s,o,n”和“b,i,k,e”。(摘自[1]) RCN工作的意义之一: 组成模型与小数据学习         图2. RCN模型示意图。(a)物体边缘和表面分离建模。层级结构生成对象轮廓,条件随机场(Conditional Random Field, CRF)生成表观模型。(b)与节点AND node(实心)表示视觉概念的组成成分,或节点OR node(虚心)表示同一语义的不同变化。(c)使用3层RCN对矩形轮廓建模。第二层的AND node用来表示矩形的角,每个角表示为第一层中线条的交汇。(d)使用4层RCN表示字母“A”。(摘自[1])         图3. AOT模型示意图。利用与或图 (And-Or Graph) 模型对物体进行层次化建模。(摘自[4]) 人类智能的一个重要特性是,人类具有从小样本中进行学习的能力,并且具有极强的泛化性,即所谓举一反三,融会贯通。RCN的实验结果显示了较强的基于小样本的学习和泛化的能力。基于小样本学习的能力通常需要显式的多层次组成模型(Hierarchical and Compositional Models)的支持。RCN模型实质上属于上下文相关概率语法图模型(Context-Sensitive Probabilistic Grammar Models),更具体是属于概率与或图模型(Probabilistic And-Or Graph Models)[3,4,5],并且RCN进一步融合了系统神经科学(systems neuroscience)研究的启发,特别是视皮层中的侧连接(lateral connections in the visual cortex)。RCN文章中也具体说明了这点:“The seminal work on AND-OR templates and tree-structured compositional models has the advantage of simplified inference, but is lacking in selectivity owing to the absence of lateral constraints.” 如图2所示,RCN利用hierarchical  graph把物体表示为边缘和面的组合。在RCN中有两种节点,即Feature node(即与节点AND node)和Pool node(即或节点OR node)。这里,与节点And node表示某个视觉概念的组成成分,比如可以用线段的组合去表示角,用四个角的组合去表示一个矩形;可以用多个小面去组合表示一个大面。这样我们就得到了一个层次化的语义结构(线段、角、形状等等)。或节点OR node表示同一语义的不同变化,比如一个边缘形状的内部形变和视角变换,一个面语义在不同纹理和尺度下的变换等等。同时,RCN还通过侧向连接来让不同高层语义之间去分享中低层的语义表达,比如“角”作为一个基本概念单元,可以被不同的物体边缘轮廓所共有。作为比较,图3给出一个通过小样本弱监督学习的AOT(And-Or Template)与或模板在物体检查中应用的示例图。 实际上,如图4所示,概率上下文相关语法模型[3]同样强调对侧连接进行建模和计算,只是在AOT工作[3]中使用条件独立的假设,从而可以使用动态规划进行推理。RCN层次化、产生式的建模方式使模型获得了在小样本上的学习能力,通过对物体边缘和平面的分离建模,以及对物体纹理、尺度等复杂变化的层次化建模,使得整个模型获得了极强的泛化能力和对表观特征变化的鲁棒性。基于小样本学习的研究方向上,另一个重量级的工作是2015年发表在科学期刊的Bayesian program learner[10],其模型原理上也可以认为属于上下文相关的概率语法图模型。另外两个相关工作包括(1)compositional boosting用于多层次图像结构的检测[6];(2)基于与或图(And-Or Graph)的在线物体跟踪[7],其中后者在实验中性能也超过两种基于深度学习的算法。         图4. 基于与或图的推理算法示例图。自顶向下产生式模型和自底向上判别式模型统一示意图,两者结合计算产生解译图。自底向上判别式模型主要进行两种测试,一是对分层结构中的每层中的节点本身进行测试,如图中Particles  on nodes,二是多测试所得的节点之间的关系进行测试,如图中Ratios on edges,两种测试都是在多层上同时进行。测试所得结果作为“提议(Proposal)”驱动自顶向下的马尔可夫链跳转或扩散,或在一些简化的假设下,直接进行(近似)动态规划推理。(摘自[9])  显式的多层次组成模型,特别是与或图 (And-Or Graph) 模型,使得自底向上/自顶向下联合推理算法得以鲁棒的实现,从而能在最大化贝叶斯后验的框架下(MAP)统一基于判别式模型的数据驱动和基于高层语义的任务驱动,并且很容易通过局部上下文无关和条件独立假设来根据需要简化推理过程,比如使用动态规划。图5所示为RCN的基于Message-Passing的推理算法示意图,与图4所示算法原理相通。         图5. RCN的推理算法。(A) (i) 通过前向传递,包括侧连接传递,生成字符假设。这里PreProc是一类Gabor算子,生成像素上的边界概率。(ii) 反向传递和侧连接传递从之前的假设中选取了“A”。(iii)“A”和“K”之间产生了一个错误的假设“K”,可以通过上下文解析消除错误假设。(iv)多个假设联合解释了图中的字母,包括对分离、遮挡的推理。(B)第二层上的特征学习。着色圆圈代表激活的特征,虚线圆圈代表最终选取的特征。(C)从边缘的相邻结构中学习侧连接。(摘自[1])      上下文相关概率图语法模型和自底向上/自顶向下联合推理算法一个比较直接的优势是模型本身和算法推理过程都是可解释的。特别是,根据任务,图语法模型中的每个节点不仅有语法结构功能,也同时具备语义解释功能;由于结构上显示多层次和组成,推理算法计算过程中非常清楚每一步,自底向上数据驱动的贡献和自顶向下结构以及空间和语义关系的贡献各是多少;并且,如果模型预测和推理结果出错时,能相对容易找出哪些中间步骤有错。在建立通用人工智能框架的方向上,DARPA对概率上下文相关语法模型框架也表示了重视[8],如图6所示。     图6. DARPA 在可解释人工智能(eXplainable AI, XAI)项目中,极为重视概率上下文相关语法模型。图中猫的模型示例是基于AOT工作[4]。(视频截屏自[8])  RCN的成功是得益于概率上下文相关语法模型和自底向上/自顶向下联合推理算法。从更广的角度来看,RCN的成功或许能促使我们继续在概率上下文相关语法模型和自底向上/自顶向下联合推理算法的框架下,来思考视觉知识的统一表达模型和学习算法,包括场景上下文语义建模、复杂物体层次化构造(Hierarchical Composition)法和基于人类感知和认知机理的小样本机器学习理论,从而能进一步实现小数据大任务(small-data-big-tasks)。这与当前流行的深度学习模型所擅长大数据小任务(big-data-small-tasks)截然不同。而在通往通用人工智能的方向上,这一点尤其重要。为此,我们下面对RCN背后学术流派与历史作一些简要回顾;笔者试图提供一个总体的解读,因此部分表述不完全拘泥于严谨的理论。 整体上,概率语法图和组成模型的演变和发展主要包括,著名华人人工智能专家傅京生(K.S. Fu)在上个世纪70年代提出的句法模式识别(Syntactic pattern recognition)、U. Grenander的模式理论(Pattern theory)、S. Geman提出的视觉中compositionality和reusable parts的概念和模型。这些学派思想在UCLA得到进一步拓广和长足的发展,主要包括朱松纯(S.-C. Zhu)和D. Mumford在2006年提出的与或图(And-Or Graph)模型,以及他们的长期合作者A. Yuille在与或图模型发展方向上的一系列工作,包括朱珑在UCLA期间的工作,以及后来与深度学习结合的相关工作。 视觉知识通常可以分为两类,一类是表达性知识(Representational Knowledge),包括各个层次上的视觉字典和各种关系;另一类是计算性知识(Computational Knowledge),包括各种特征的计算和自底向上与自顶向下的排序(Ordering) 。在上个世纪80年代后期和90年代初,研究人员逐渐认识到视觉问题在本质上是一个病态问题(ill-posed problem),必须在贝叶斯框架下通过融入关于客观世界的先验知识进行推理计算来求解问题,通过显式的建立各类视觉模式的模型来表达各种视觉知识。Grenander(1976)、Cooper(1979)和傅京生(1982)最早提出对各类视觉模式建立统计模型。S. Geman进一步提出了组成性(compositionality)和可重用部件(reusable parts)的概念和模型。在早期的模型中,通常只是作一些简单的假设,如物体表面和图像区域的平滑性(Smoothness)等。这些模型包括:各类物理模型(Physically-based Model)、正则化理论(RegularizationTheory)和能量函数模型(Energy Functional)等等。在随后的研究中,这些早期模型都被统一到统计建模的范畴内,但这种建模方法的计算量很大,为此研究者开始通过引入隐含变量(HiddenV ariables)来解释图像中的各种相关性(Dependency)从而进行降维,建立视觉模型中的产生式模型(Generative Model),减少计算量。产生式模型必须要建立一些视觉字典作为隐含变量。隐含变量的引入一方面进行降维,同时进行解相关(Decoupling),如稀疏编码(Sparse Coding)以及后来的Active basis模型,通过从自然图像中学习到一个超完备(Over-complete)基来建立图像的加性模型(Additive Model),只需要使用少量的基(基的数量远小于象素点的个数,即稀疏性)就可以表示图像。 视觉模式,特别是类间结构变化大的物体,如钟、椅子和衣服等,需要用构造(Composition)式方法来建模,对其语法(Grammar)进行描述。从构造方式上来说,这类物体的结构分解是有规则的,如钟可分解为:外框、表盘、指针、表示时间的数字,但是其中的每一个子部件(Part)都有千变万换的表现形式,如外框可以是方形、圆形或椭圆形等,表示时间的数字可以是罗马数字或阿拉伯数字等。对其建模,一方面要能对这种构造方式进行表示,同时对子部件之间的关系进行描述,而子部件本身也可能进一步通过构造式模型来描述。通过这种构造式方法对大量视觉模式建模,最终处于分解最低层的一些子部件就可以抽象形成视觉字典(Visual Vocabulary),它们反过来逐级向上构造出大量的视觉模式及其各种表现形式,从而可以处理类间结构的变化。 对语法建模的思想一开始出现在对自然语言建模的研究中,研究者通过随机上下文无关语法(Stochastic Context Free Grammar,SCFG)来对自然语言的词法、句法等建模。在图像中,对语法建模更为重要,是建模的一个核心问题。自然语言中字与字之间,词与词之间等存在显式的左右顺序(Left-to-Right)关系,但在图像中不存在,这给图像语法建模带来了很大的困难:SCFG并不直接适用,传统的研究中还没有合适的模型。 描述式模型适合对高熵模式进行建模,如各种纹理, 数学形式上属于隐式函数,即这类高熵模式通常处于图像空间种的隐式流形(Implicit Manifold)上;产生式模型适合对低熵模式进行建模,如各种卡通画,通过建立一组超完备基,图像就表示为在这组基下的坐标系数,数学形式上属于显式函数,即这类低熵模式处于图像空间中的显式流形(Explicit Manifold)上。但在实际自然场景中,由于尺度的原因,一幅图像中通常都是既有低熵模式也有高熵模式。为此必须将描述式和产生式模型进行统一,进一步这种统一必须表现在视觉的各个层次上,同时对不同层次之间的构造(Composition)关系进行描述 。    朱松纯(S.-C. Zhu)等人在研究概率上下文相关语法模型过程中,指出描述式和产生式模型是在图像空间不同熵区的表现,将其统一其实就是David Marr(计算机视觉的奠基人)在七十年代末提出原始简约图模型(Primal Sketch)的理论模型。进一步,基于原始简约图模型,通过感知尺度空间理论(Perceptual Scale Space Theory)来研究视觉模式的统计描述和模型随着尺度变化而变化的规律,为描述式和产生式模型转化提供了理论基础。随之,与或图(And-Or Graph) 表示在2006年由朱松纯(S.-C.Zhu)团队首次提出,并进一步与D. Mumford合作进行了框架的完善,融入随机上下文相关语法(Stochastic Context Sensitive Grammar),能对复杂物体的多层次构造特性(Hierarchical Compositionality)建模,完全表示图像语法(Image Grammar)。与或图表示突破了传统单一模板(Template)的表示方法,对每类物体用多个图结构表示,该结构可以通过语法(Grammar)、产生规则(Production Rule)进行动态调制,从而可以用相对小的视觉字典(Visual Vocabulary),表达大量类间结构变化很大的物体的图像表现形式(Configuration)。建立小样本学习理论的一个关键问题是要研究产生式模型如何指导判别式模型,这点在RCN模型中得到了非常好的体现。 视觉推理计算的目的是在贝叶斯框架下,给定输入图像,求客观世界表达的最优后验概率分布。主要两类计算模型,一类是自底向上的判别式模型,另一类是自顶向下的产生式模型。判别式模型通过计算图像的局部特征来逼近后验概率 (Posterior Probability)或后验概率比(Ratios of Posterior Probability),产生式模型通过使用马尔可夫链蒙特卡罗方法(Markov Chain Monte Carlo, MCMC)或基于简化模型的(近似)动态规划按贝叶斯规则来自顶向下推理后验概率。视觉计算的任务根据所求的客观世界表达的不同而不同,解译(Parsing)图像是其最主要的目标。 图像解译通常可分为两个子部分:一是所谓的“什么跟什么在一起(What goes with what)?”问题,即图划分(Graph Partition)问题,其解空间为图划分空间(Graph Partition Space);二是所谓的“什么是什么(What is what)?”问题,即给定一个划分状态,为其每个子图选择模型,并匹配模型的参数。其解空间为模型空间(Model Space)。图像解译必须在两者的联合空间中求最优解,而传统的视觉计算通常只在其中一个空间上求解。在图划分空间上求解的算法包括:图的谱分析(Graph Spectral Analysis)方法,Minimum-cut和Graph-cut,和 基于图的通用信任传递(Generalized Belief Propagation on Graph) 。这类算法由于只集中在图划分空间上进行,而且能处理的能量函数类型也有限,所以不能作通用的视觉计算。在模型空间上求解的有如均值漂移(Mean-shift)算法等。传统的MCMC方法,如Gibbs采样,通过每次调整一个点的状态进行计算,所以它们的计算量特别大,不适合大型系统。后来Swendsen-Wang(SW)算法通过每次调整一组点的状态来进行计算,大大的加速了Gibbs采样,但是SW算法只能处理Potts模型,所以也无法进行通用的视觉计算。进行通用而高效的视觉计算的关键是在贝叶斯框架下,算法不依赖于初始状态,在图划分和模型的联合空间达到最优,要将自底向上的判别式模型与自顶向下的产生式模型进行统一,并有效调度,这点在相对小的任务上有很好的表现[9],但有待进一步研究能推广到small-data-big-tasks。     我们也邀请了《视觉求索》的部分编辑们对这篇文章作了评论。     “CAPTCHA是认证用户是真人而不是机器程序的一个有效手段。基于文本的CAPTCHA系统通常会对字符串进行各种图像后处理,使得机器(计算机视觉)程序不易读取。在此类系统中,文本形态的多样性决定了系统的安全性,而这个多样性是直接由图像后处理的方法决定的。在以往的试图攻击CAPTACHA的程序中,通常设计者(骇客)会通过自己观察若干图片后,估测系统使用的可能的图像后处理方式,然后做反向工程。这样再反过来,设计者可以编程序自动生成大量的训练样本。这篇Science的论文展现了这样的反向工程实际上可以通过概率语法图模型,通过少量的样本,就可以自动的将生成程序自动学出来。概率语法图模型之所以能做到小样本学习,还在于显示的构成式(compositional)模型设计能够大大减少隐参数的数量。或者从另外一个角度来讲,能够灵活的让参数的个数或者是模型的大小,随训练数据量作动态的调整。现有的深度学习生成模型缺乏这样的显性设计和灵活性,通常不具备小数据学习的能力。在预训练的模型上做微调是一种方式,但实质上这种方式隐性的利用了更多的训练数据。这篇论文好的一个方面是再次提示我们计算机视觉以及人工智能的研究人员领域知识的重要性。这个领域知识,在计算机视觉里面,就是图像数据的结构。盲目的不加思考的试图使用深度学习解决所有AI问题,是不可取的。”— by 华刚 “如今大数据时代的人工智能是‘高大上’的代表,但背后却藏着个‘暴力美学’。大量的数据样本用来描述数据间的匹配关系,深度学习以此训练深度神经网络的海量参数。以最通俗的语言来说,深度神经网络其实是以无与伦比的暴力记忆能力、以海量参数生硬地记住了数据间的匹配关系,再以无可匹敌的计算能力重现了此关系。最近甚至有ICLR文章记载,深度神经网络可以被训练成记住一大堆随机生成的噪声信号!所以,这样的智能其实是靠人工标注的数据堆砌出来的。正所谓,‘有多少人工,就有多少智能。’ 《科学》杂志的这篇文章正是要突破‘大数据’的瓶颈,把人工智能真正建立在小数据的基础。从小数据中萃取的智能才可能是真正的大智能!”— by 周少华      我们非常高兴的看到RCN的成功,但同时更希望看到,也相信很快能看到,更多的对其模型背后框架的思考和进一步研究。这里,我们引用Vicarious的博客文章的结束语来共勉之:“Miles Brundage said it well: Progress so farhas largely been toward demonstrating general approaches for building narrow systems rather than general approaches for building general systems. Progress toward the former does not entail substantial progress toward the latter. General systems are hard to evaluate and harder to build than their narrow counterparts, but we must confront this difficulty directly if we ever hope to achieve human level intelligence with qualities like common sense.”  [1] D. George, W. Lehrach, K. Kansky, M. Lázaro-Gredilla, C. Laan, B. Marthi, X.Lou, Z. Meng, Y. Liu, H. Wang, A. Lavin, and D. S. Phoenix, “A generative vision model that trains with high data efficiency and breaks text-based CAPTCHAs”, Science, 2017.[2] https://www.vicarious.com/2017/10/26/common-sense-cortex-and-captcha/%5B3%5D S.-C. Zhu(朱松纯), D. Mumford, “Astochastic grammar of images,” Foundations and Trends in Computer Graphics and Vision, 2007.[4] Z. Si(司长长), S.-C. Zhu(朱松纯), “Learning AND-OR templates for object recognition anddetection,” PAMI, 2013.[5] A. L. Yuille, “Towards a theory of compositional learning and encoding ofobjects,” ICCV Workshops, 2011.[6] T. F. Wu(吴田富), G.-S. Xia, S.- C. Zhu(朱松纯),“Compositional Boosting for Computing Hierarchical Image Structures,” CVPR,2007. https://v.qq.com/x/page/s0566jrzxbe.html%5B7%5D T. F. Wu(吴田富), Y. Lu(吕洋),S.-C. Zhu(朱松纯), “Online ObjectTracking, Learning and Parsing with And-Or Graphs,” TPAMI, 2016. https://v.qq.com/x/page/c0566u9xcel.html[8] A DARPA Perspective on AI, https://www.youtube.com/watch?v=-O01G3tSYpU&t=3s or https://v.qq.com/x/page/b0378w9dkgk.html%5B9%5D Z. Tu(屠卓文),X. Chen, A. L. Yuille, S.-C. Zhu(朱松纯), “Image parsing:Unifying segmentation, detection, and recognition,” IJCV, 2005.[10] B. M. Lake, R. Salakhutdinov, J. B. Tenenbaum, “Human-level concept learningthrough probabilistic program induction,” Science, 2015. 版权声明:本原创文章版权属于《视觉求索》公众号。任何单位或个人未经本公众号的授权,不得擅自转载。联系授权转载请通过订阅公众号后发消息或电邮visionseekereditors@gmail.com。 via: http://mp.weixin.qq.com/s?__biz=MzI3MTM5ODA0Nw==&mid=2247483995&idx=1&sn=c4c2ccfdbbb977e26255465ea8fea84a&scene=0#wechat_redirect

 

PaperWeekly   网页版 2017-10-30 16:38
深度学习 视觉 算法 强化学习
【8份最新“Paper + 开源代码”推荐】 本期论文推荐关键词:#Semantic Parsing# #Sequence Labeling# #QA# #GAN# #Data Augmentation# #Image Denoising# #Deep Reinforcement Learning# #RNN# 查看完整论文:http://t.cn/RWBWce1

 

ChatbotsChina   网页版 2017-10-30 15:07
深度学习 算法 神经网络
【综述论文:当前深度神经网络模型压缩和加速方法速览】 By 机器之心 本文全面概述了深度神经网络的压缩方法,主要可分为参数修剪与共享、低秩分解、迁移/压缩卷积滤波器和知识精炼,本论文对每一类方法的性能、相关应用、优势和缺陷等进行独到的分析。 http://t.cn/RWEjDd1

 

网路冷眼   网页版 2017-10-30 15:00
深度学习 算法 资源 PDF 论文 神经网络
【Learning Depth-Three Neural Networks in Polynomial Time】http://t.cn/RWBE6Pf 论文《学习深度:以多项式时间构建的3层神经网络》,PDF 格式,点击链接下载:http://t.cn/RWBE6PM

 

爱可可-爱生活   网页版 2017-10-30 12:47
深度学习 算法 资源 Erwin Coumans 强化学习 视频
【PyBullet gym环境共生运动强化学习】《Deep Reinforcement Learning of Symbiotic Locomotion – YouTube》by Erwin Coumans http://t.cn/RW1sAZg http://t.cn/RW1s74O

 

IT技术博客大学习   网页版 2017-10-30 10:05
算法 神经网络
【新颖训练方法——用迭代投影算法训练神经网络】 详见:http://t.cn/RW1A3Ao 分享自@云栖精选

 

蚁工厂   网页版 2017-10-30 08:46
应用 代码 机器人
#开源项目推荐# foolqq:一个基于图片识别的QQ机器人。原理是定时截取屏幕,并识别图片关键点像素,确定群会话窗口的位置,并通过剪贴板实现JVM消息和屏幕消息的交换。通过Robot类操作鼠标和键盘。 避免走协议不稳定的情况~ http://t.cn/RW3T9Qn

 

数据分析研究者   网页版 2017-10-30 08:11
【人口老龄化、失业、人工智能的一些看法】直觉上说,老龄人口占比上升会导致适龄劳动力供给下降,供求缺口将导致失业率的下降,更容易实现充分就业。然而美、欧、日经验表明,失业率与人口老龄化不存在明显负相关关系,老龄化长期中并不一定能够帮助失业率持续下降…延伸观点:http://t.cn/ROFVpmh

数据分析研究者 网页版 转发于2017-10-30 11:35
【科学家:人工智能远未达自主意识】随着无人驾驶、刷脸支付等“黑科技”逐渐投入使用,人工智能技术突飞猛进,再次迎来发展高潮。但科学家指出,人工智能离拥有自主意识还遥遥无期,要担心人类被机器人统治的科幻情节成真,或是被机器人抢走工作,都还为时过早。http://t.cn/RW36xzv ​​​

 

爱可可-爱生活   网页版 2017-10-30 06:12
深度学习
【论深度学习信息瓶颈理论】《On the Information Bottleneck Theory of Deep Learning》(2017) http://t.cn/RW3aoRk

 

爱可可-爱生活   网页版 2017-10-30 05:50
自然语言处理 Jason Brownlee 情感分析
【用词嵌入模型预测电影评论情感倾向】《How to Develop a Word Embedding Model for Predicting Movie Review Sentiment | Machine Learning Mastery》by Jason Brownlee http://t.cn/RW3XTRn

 

爱可可-爱生活   网页版 2017-10-30 05:28
代码 论文
《VPGNet: Vanishing Point Guided Network for Lane and Road Marking Detection and Recognition》S Lee, J Kim… [KAIST & Samsung Electronics DMC R&D Center] (2017) http://t.cn/RW3X7Qq GitHub: https:\//github.com\/SeokjuLee/VPGNet ​

 

wx:泡泡机器人SLAM   网页版 2017-10-31 06:36
会议活动 深度学习 视觉 算法 应用 CVPR 会议 机器人 神经网络
「用于RGB-D室内场景语义分割的门式融合局部感知反卷积网络」摘要 大家好,今天为大家带来的文章是”Locality-Sensitive Deconvolution Networks with Gated Fusion for RGB-D Indoor Semantic Segmentation”——用于RGB-D室内场景语义分割的门式融合局部感知反卷积网络,该文章选自CVPR2017。 从左至右依次是彩色图,HHA图,Ground Truth和网络的预测结果这篇文章使用RGB-D数据进行室内场景的语义分割。尽管常用的反卷积网络在这一问题上实现了令人印象深刻的效果,但我们发现这一问题在以下两方面还有继续提升的空间。其中之一是边缘分割。反卷积网络使用更多的像素来预测每个像素的类别。这一行为隐含的限制了物体边缘的分割精度。另一方面是彩色图像和深度图像数据融合的问题。近些年来最好的方法一般都使用相等的权值来融合两者。但是这一做法并没有考虑到这两者对于不同场景下不同类别的表达能力的差异。为了解决这两个问题,我们第一个提出了局部感知的反卷积神经网络(LS-DeconvNet)。LS-DeconvNet使用RGB-D数据,在每一个反卷积层结合了局部视觉信息和几何信息。我们的做法使网络不仅能够有更大的感受域,同时也可以恢复出更加精细的物体边缘。对于RGB-D数据的融合,我们引入了一个门式融合的层来有效的结合两个LS-DeconvNets。这一层可以学习RGB和Depth数据在每一个像素上的融合权值。我们的算法在 SUN RGB-D和NYU-Depthv2取得了最好的效果。 转自:泡泡机器人SLAM via: http://mp.weixin.qq.com/s?__biz=MzA4NDEyMzc2Mw==&mid=2649678295&idx=4&sn=aa0771605ccd06e7717860c1ffe03c47&scene=0#wechat_redirect

 

wx:   网页版 2017-10-31 06:36
资源 教育网站 课程
「【推荐】CMU课程:统计机器学习(讲义+视频)」转自:爱可可-爱生活 链接: http://www.stat.cmu.edu/~ryantibs/statml/ 原文链接:https://m.weibo.cn/1402400261/4168434956599853 via: http://mp.weixin.qq.com/s?__biz=MzA4NDEyMzc2Mw==&mid=2649678295&idx=1&sn=72ce33e1ca2f92d19c9a9937af2c2b94&scene=0#wechat_redirect

 

wx:   网页版 2017-10-31 06:36
深度学习 视觉 算法 李沐
「回顾 | 跟李沐一起动手学深度学习第六课:优化算法高级和计算机视觉」本文为10月28日上午,将门联合亚马逊AI主任科学家李沐博士:从零开始入门深度学习第六课的内容回顾。因为上周大家纷纷对亚马逊应用科学家Aston Zhang的讲课激情点赞,这周Aston又继续给大家带来优化算法的高级部分,随后再进入计算机视觉的部分。 获取完整回顾视频>>关注“将门创投”(thejiangmen)微信公众号,回复“第六课”获取下载链接。 转自:将门创投 完整内容请点击“阅读原文” via: http://mp.weixin.qq.com/s?__biz=MzA4NDEyMzc2Mw==&mid=2649678295&idx=2&sn=c8b8affc5eb478173870dfe01b64ec65&scene=0#wechat_redirect

 

wx:   网页版 2017-10-31 01:57
深度学习 视觉 算法 应用 自然语言处理 GPU SVM Tom Mitchell 行业动态 回归 决策树 社交网络 神经网络 数据科学 特征工程 信息检索 医疗 异常检测 智能汽车
「一文读懂深度学习与机器学习的差异」文章来源 | OSC 如果你经常想让自己弄清楚机器学习和深度学习的区别,阅读该文章,我将用通俗易懂的语言为你介绍他们之间的差别。机器学习和深度学习变得越来越火。突然之间,不管是了解的还是不了解的,所有人都在谈论机器学习和深度学习。无论你是否主动关注过数据科学,你应该已经听说过这两个名词了。为了展示他们的火热程度,我在 Google trend 上搜索了这些关键字:如果你想让自己弄清楚机器学习和深度学习的区别,请阅读本篇文章,我将用通俗易懂的语言为你介绍他们之间的差别。下文详细解释了机器学习和深度学习中的术语。并且,我比较了他们两者的不同,别说明了他们各自的使用场景。 什么是机器学习和深度学习? 让我们从基础知识开始:什么是机器学习?和什么是深度学习?如果你对此已有所了解,随时可以跳过本部分。什么是机器学习?一言以蔽之,由 Tom Mitchell 给出的被广泛引用的机器学习的定义给出了最佳解释。下面是其中的内容:“计算机程序可以在给定某种类别的任务 T 和性能度量 P 下学习经验 E ,如果其在任务 T 中的性能恰好可以用 P 度量,则随着经验 E 而提高。”是不是读起来很绕口呢?让我们用简单的例子来分解下这个描述。示例 1:机器学习和根据人的身高估算体重假设你想创建一个能够根据人的身高估算体重的系统(也许你出自某些理由对这件事情感兴趣)。那么你可以使用机器学习去找出任何可能的错误和数据捕获中的错误,首先你需要收集一些数据,让我们来看看你的数据是什么样子的:图中的每一个点对应一个数据,我们可以画出一条简单的斜线来预测基于身高的体重。例如这条斜线:Weight (in kg) = Height (in cm) – 100…这些斜线能帮助我们作出预测,尽管这些斜线表现得很棒,但是我们需要理解它是怎么表现的,我们希望去减少预测和实际之间的误差,这也是衡量其性能的方法。深远一点地说,我们收集更多的数据 (experience),模型就会变得更好。我们也可以通过添加更多变量(例如性别)和添加不同的预测斜线来完善我们的模型。示例2:飓风预测系统我们找一个复杂一点的例子。假如你要构建一个飓风预测系统。假设你手里有所有以前发生过的飓风的数据和这次飓风产生前三个月的天气信息。如果要手动构建一个飓风预测系统,我们应该怎么做?首先我们的任务是清洗所有的数据找到数据里面的模式进而查找产生飓风的条件。我们既可以将模型条件数据(例如气温高于40度,湿度在80-100等)输入到我们的系统里面生成输出;也可以让我们的系统自己通过这些条件数据产生合适的输出。我们可以把所有以前的数据输入到系统里面来预测未来是否会有飓风。基于我们系统条件的取值,评估系统的性能(系统正确预测飓风的次数)。我们可以将系统预测结果作为反馈继续多次迭代以上步骤。让我们根据前边的解释来定义我们的预测系统:我们的任务是确定可能产生飓风的气象条件。性能P是在系统所有给定的条件下有多少次正确预测飓风。经验E是我们的系统的迭代次数。什么是深度学习?深度学习的概念并不新颖。它已经存在好几年了。但伴随着现有的所有的炒作,深度的学习越来越受到重视。正如我们在机器学习中所做的那样,先来看看深度学习的官方定义,然后用一个例子来解释。“深度学习是一种特殊的机器学习,通过学习将世界使用嵌套的概念层次来表示并实现巨大的功能和灵活性,其中每个概念都定义为与简单概念相关联,而更为抽象的表示则以较不抽象的方式来计算。”这也有点让人混乱。下面使用一个简单示例来分解下此概念。示例1: 形状检测先从一个简单的例子开始,从概念层面上解释究竟发生了什么的事情。我们来试试看如何从其他形状中识别的正方形。我们眼中的第一件事是检查图中是否有四条的线(简单的概念)。如果我们找到这样的四条线,我们进一步检查它们是相连的、闭合的和相互垂直的,并且它们是否是相等的(嵌套的概念层次结构)。所以,我们完成了一个复杂的任务(识别一个正方形),并以简单、不太抽象的任务来完成它。深度学习本质上在大规模执行类似逻辑。示例2: 猫 vs. 狗我们举一个动物辨识的例子,其中我们的系统必须识别给定的图像中的动物是猫还是狗。阅读下此文,以了解深度学习在解决此类问题上如何比机器学习领先一步。 机器学习和深度学习的对比 现在的你应该已经对机器学习和深度学习有所了解,接下来我们将会学习其中一些重点,并比较两种技术。数据依赖性深度学习与传统的机器学习最主要的区别在于随着数据规模的增加其性能也不断增长。当数据很少时,深度学习算法的性能并不好。这是因为深度学习算法需要大量的数据来完美地理解它。另一方面,在这种情况下,传统的机器学习算法使用制定的规则,性能会比较好。下图总结了这一事实。硬件依赖深度学习算法需要进行大量的矩阵运算,GPU 主要用来高效优化矩阵运算,所以 GPU 是深度学习正常工作的必须硬件。与传统机器学习算法相比,深度学习更依赖安装 GPU 的高端机器。特征处理特征处理是将领域知识放入特征提取器里面来减少数据的复杂度并生成使学习算法工作的更好的模式的过程。特征处理过程很耗时而且需要专业知识。在机器学习中,大多数应用的特征都需要专家确定然后编码为一种数据类型。特征可以使像素值、形状、纹理、位置和方向。大多数机器学习算法的性能依赖于所提取的特征的准确度。深度学习尝试从数据中直接获取高等级的特征,这是深度学习与传统机器学习算法的主要的不同。基于此,深度学习削减了对每一个问题设计特征提取器的工作。例如,卷积神经网络尝试在前边的层学习低等级的特征(边界,线条),然后学习部分人脸,然后是高级的人脸的描述。更多信息可以阅读神经网络机器在深度学习里面的有趣应用。问题解决方式当应用传统机器学习算法解决问题的时候,传统机器学习通常会将问题分解为多个子问题并逐个子问题解决最后结合所有子问题的结果获得最终结果。相反,深度学习提倡直接的端到端的解决问题。举例说明:假设有一个多物体检测的任务需要图像中的物体的类型和各物体在图像中的位置。传统机器学会将问题分解为两步:物体检测和物体识别。首先,使用一个边界框检测算法扫描整张图片找到可能的是物体的区域;然后使用物体识别算法(例如 SVM 结合 HOG )对上一步检测出来的物体进行识别。相反,深度学习会直接将输入数据进行运算得到输出结果。例如可以直接将图片传给 YOLO 网络(一种深度学习算法),YOLO 网络会给出图片中的物体和名称。执行时间通常情况下,训练一个深度学习算法需要很长的时间。这是因为深度学习算法中参数很多,因此训练算法需要消耗更长的时间。最先进的深度学习算法 ResNet完整地训练一次需要消耗两周的时间,而机器学习的训练会消耗的时间相对较少,只需要几秒钟到几小时的时间。但两者测试的时间上是完全相反。深度学习算法在测试时只需要很少的时间去运行。如果跟 k-nearest neighbors(一种机器学习算法)相比较,测试时间会随着数据量的提升而增加。不过这不适用于所有的机器学习算法,因为有些机器学习算法的测试时间也很短。可解释性至关重要的一点,我们把可解释性作为比较机器学习和深度学习的一个因素。我们看个例子。假设我们适用深度学习去自动为文章评分。深度学习可以达到接近人的标准,这是相当惊人的性能表现。但是这仍然有个问题。深度学习算法不会告诉你为什么它会给出这个分数。当然,在数学的角度上,你可以找出来哪一个深度神经网络节点被激活了。但是我们不知道神经元应该是什么模型,我们也不知道这些神经单元层要共同做什么。所以无法解释结果是如何产生的。另一方面,为了解释为什么算法这样选择,像决策树(decision trees)这样机器学习算法给出了明确的规则,所以解释决策背后的推理是很容易的。因此,决策树和线性/逻辑回归这样的算法主要用于工业上的可解释性。 机器学习和深度学习用于哪些领域? 维基百科上关于机器学习的文章概述了所有使用机器学习的领域。这些包括:计算机视觉 用于车牌识别和面部识别等的应用。信息检索 用于诸如搜索引擎的应用 – 包括文本搜索和图像搜索。市场营销 针对自动电子邮件营销和目标群体识别等的应用。医疗诊断 诸如癌症识别和异常检测等的应用。自然语言处理,如情绪分析和照片标记等的应用。上图恰当地总结了机器学习的应用领域,涵盖了整个机器智能的更广泛的话题。使用机器学习/深度学习的公司的一个主要例子是Google。在上图中,你可以看到 Google 正在将机器学习应用于其各种产品。机器学习/深度学习的应用是无尽的 – 你仅需寻找正确的时机! 突击测试 为了评估你是否真的了解这个区别,我们将进行一次测验。 你可以在这个帖子中发布你的答案。请务必涉及以下步骤,以保证是完整的对各个场景进行回答。你将如何使用机器学习解决以下问题?你如何使用深度学习解决以下问题?结论:哪种方法是更好的?场景1你必须建立一个用于自动驾驶车辆的软件组件。你构建的系统应该从相机中获取原始像素数据,并预测你应该引导车轮的角度是多少。场景2给定一个人的信用和背景信息,你的系统应该评估出此人是否应该有资格获得贷款。场景3你必须创建一个可以将俄语消息翻译成印地语消息的系统,以便俄语代表能够与当地的群众通信。在此找到针对上述问题的各种数据科学家的讨论记录和观点。 未来发展趋势 本文概述了机器学习和深度学习及其差异。在本节中,我将分享我对机器学习和深度学习未来发展的观点。首先,随着业内对数据科学和机器学习使用的日益增长的趋势,对于每个想要生存下来的公司来说,重视机器学习将变得非常重要。苹果正在 iPhone X 中使用机器学习,这标志着这项技术的发展方向。深入学习让我们每天都感到惊讶,并将在不久的将来继续如此。这是因为深度学习是被证明为最先进的性能最好的技术之一。针对机器学习和深度学习的研究将是持续的。但与前几年的研究仅限于学术界不同的是,机器学习和深度学习方面的研究将在业界和学术界都有爆发式的发展。而且拥有比以往更多的资助,更有可能成为人类整体发展的主旋律。 CSDN AI热衷分享 欢迎扫码关注 via: http://mp.weixin.qq.com/s?__biz=MzAwNDI4ODcxNA==&mid=2652245756&idx=1&sn=d9475250afa73cbb259f88091747cafa&scene=0#wechat_redirect

 

回复