这个帖子已经锁定.

第609期大数据日报(2016-09-22)

更新于 2016年9月23日 大数据
0 2016年9月23日

2016-09-22 大数据 日报

大数据日报 2016-09-22

@好东西传送门 出品, 过往目录http://bd.memect.com

订阅:给 hao@memect.com 发封空信, 标题: 订阅大数据日报   或点击 点我订阅

本期话题有:

全部14 分析7 计算框架3 云服务2 入门1 虚拟化1 数据库1 应用1 会议活动1

用日报搜索找到以前分享的内容: http://bd.memect.com/search/

tobe迪豪   网页版 2016-09-22 09:38
分析 计算框架 Hadoop Spark 代码
Google开源的TensorFlow深度学习框架已经支持HDFS了 http://t.cn/RclESuQ ,应该是第一个支持大规模分布式文件的深度学习框架,通过与Hadoop/Spark生态的集成,进一步完善了“云计算 -> 大数据 -> 机器学习”的生态链。

tobe迪豪 网页版 转发于2016-09-22 17:56
回复@贪恋清晨de阳光:TensorFlow未来能够支持Java的,感兴趣可以关注tensorflow/tensorflow #3# 和 #5# 两个Issue,目前不支持用Java来训练模型,但可以使用Java来调用TensorFlow的模型,参考deep_recommend_system项目中的gRPC和HTTP接口

tobe迪豪 网页版 转发于2016-09-22 18:26
回复@长空无剑:TensorFlow目前只是支持HDFS,社区并没有规划使用Yarn或者Spark来运行,其实我们需要一个资源隔离系统和系统调度系统,无论是Google还是开源社区都推荐使用Docker和Kubernetes,实现Cloud Machine Learning服务

 

ArnetMiner   网页版 2016-09-22 22:13
分析 Zhihua Zhou
【学术头条】Zhihua Zhou的无标记数据辅助监督学习报告。http://t.cn/Rcj1Dys 在现有机器学习技术需要使用大量的有标记数据进行训练。即便在“大数据时代”人们能够容易地收集到大量数据,但获取数据样本的“标记”(Lable)信息仍然困难,因为这通常需要耗费大量的人力物力。

 

中国统计网   网页版 2016-09-22 15:40
分析
【Pinterest凭什么拥有那么多用户:机器学习是答案】#玩转大数据# 目前,Pinterest月平均活跃用户量达到1亿,这家以图片为主的公司是如何留住用户并盈利的呢?Pinterest的主要目标是向用户推荐相关的图片或内容,推荐的内容足够精确才能提高用户黏性。http://t.cn/RcjbOQX

 

专注云计算   网页版 2016-09-22 13:46
计算框架 数据库 Hadoop HBase
【Hadoop学习:深度剖析HDFS原理】在配置hbase集群将 hdfs 挂接到其它镜像盘时,有不少困惑的地方,结合以前的资料再次学习; 大数据底层技术的三大基石起源于Google在2006年之前的三篇论文GFS、Map-Reduce、 Bigtable http://t.cn/Rcle7t4

 

专注云计算   网页版 2016-09-22 11:36
计算框架 Spark YARN
【Spark基本工作流程及YARN cluster模式原理】 Spark应用程序有多种运行模式。SparkContext和Executor这两部分的核心代码实现在各种运行模式中都是公用的,在这两部分之上,根据运行部署模式(例如:Local[N]、Yarn cluster等)的不同,有不同的调度模块以及对应的适配代码。 http://t.cn/RclgQYw

 

数据科学家快报   网页版 2016-09-22 23:08
分析 可视化
数据可视化,除了炫目你真的看懂内涵了嘛? http://t.cn/RcYZwUE – 数据科学家快报

 

IT程序猿   网页版 2016-09-22 18:00
【大数据分页方案】软件开发中,常用要用到分页、计算总数,数据量超过千万、上亿的时候,往往count 的需要超过 1s 的执行时间,甚至 3-5s,对于一个追求性能的前沿团队来说,这个不能忍啊!http://t.cn/RcczqB8(来自: 魅族科技开发团队@流星狂飙

 

数据分析精选   网页版 2016-09-22 17:05
分析
#数据分析精选# 【小白学统计(44)假设检验原理:两类错误】理想的假设检验是当H0是正确的假设时,能够判别为接受。当H0是不正确的假设时,能够判别为拒绝。但是,在由样本统计量数据判断总体参数时,由于样本数据具有随机性,因此在判别时,就可能有四种结果出现http://t.cn/RcOuINH

 

网智天元   网页版 2016-09-22 15:57
会议活动 会议
发表了博文《人人都在说大数据,那么大数据变现是什么》自2009年大数据概念提出以来,越来越多的国家开始重新定义大数据。2016中国大数据产业峰会透露,未来5年,大数据产业规模将以每年50%以上的速度增http://t.cn/RcjGjxn

 

数据分析精选   网页版 2016-09-22 12:36
分析 云服务
#数据分析精选# 【大数据漫谈(六)——数加平台】未来3年,大数据市场规模将达到1万亿元,基于阿里云大数据平台数加,将有千余家合作伙伴、万名首席数据官和5万数据科学家诞生,把中国大数据市场规模拓展至万亿规模。来自@袋鼠云DTStack @陈吉平拖雷 http://t.cn/RcjvLPn

 

InfoQ   网页版 2016-09-22 12:00
应用 金融
【大数据和人工智能在互联网金融上的应用】随着互联网 P2P 行业的迅猛发展,大数据风控和获客也成为行业的核心竞争力,同时也面临着很大的挑战。本次演讲主要分享如何把大数据和人物画像、知识图谱两大核心技术结合在一起,有效地提高风控和获客能力。 http://t.cn/RclWcXP

 

英特尔商用频道   网页版 2016-09-22 08:00
入门
【常见的大数据术语表】大数据的出现带来了许多新的术语,但这些术语往往比较难以理解。因此,道长今天就给大家推荐一份中英对照版常用大数据术语表,抛砖引玉,供大家深入了解。当然,这份术语表并没有100%包含所有的术语,如果你了解其他常用大数据术语,欢迎与大家分享!http://t.cn/RcOsqU6

 

数据科学家快报   网页版 2016-09-21 23:21
分析 云服务 华先胜
阿里云智能视觉首席研究员华先胜:视觉大数据智能分析、识别和搜索 http://t.cn/RclMRiZ – 数据科学家快报

 

Docker精选   网页版 2016-09-21 08:08
虚拟化 Docker 容器
【Node.js自动导航模式在Docker的应用】Joyent公司开源了两个Node.js模块,Consulite和Piloted,旨在使用Node.js来整合Docker容器。本文通过实例介绍了如何使用这两个模块在Node.js中应用AutoPilot Patten(自动导航模式)在Docker容器中快捷地构建应用。http://t.cn/RcOBNWP

Docker精选 网页版 转发于2016-09-22 11:33
为了代替应用程序开发人员去实现管理SIGNUP事件以及初始化服务地址列表加载,我们决定用piloted模块来处理这些工作。所有应用依赖的后台和服务们都已经配置在了containerpilot.json的配置文件中。