第482期大数据日报(2016-05-18)

更新于 2016年5月19日 大数据
我来说两句
0 2016年5月19日

2016-05-18 大数据 日报

大数据日报 2016-05-18

@好东西传送门 出品, 过往目录http://bd.memect.com

订阅:给 hao@memect.com 发封空信, 标题: 订阅大数据日报   或点击 点我订阅

本期话题有:

全部18 分析5 计算框架4 数据库3 应用1 云服务1 资源1

用日报搜索找到以前分享的内容: http://bd.memect.com/search/

潘俊勇_易工作   网页版 2016-05-18 02:46
云服务 SaaS
http://t.cn/RqkK286 国内saas的悲观解读

 

分析
原文档定义应用:数据科学 Everything in Rmd – 数据科学家 Rstudio 通过 shiny 将R语言推向Web化,Rmarkdown 借助 Shiny已经不断演化形成了一个动态可交互文档生态。对于数据科学的研究可以说已经是Every Thing inRmd! http://t.cn/RqFUrH3

 

CTO俱乐部   网页版 2016-05-18 17:09
#CTO技术干货# 【冉起新秀:Apache六大尚未广为人知的大数据项目】世界各地无数的组织,他们使用的数据现在日益庞大而复杂,使用传统的数据处理程序已无法再进行优化分析及获得洞察。而这正是的新一代的大数据应用程序要解决的问题。阅读全文:http://t.cn/RqkDjxV

 

【腾讯大数据套件带你玩转大数据】 http://t.cn/RqkuA2L(分享自 @一点资讯

 

数盟社区   网页版 2016-05-18 09:31
【java在处理大数据的时候一些小技巧】众所周知, Java 在处理数据量比较大的时候,加载到内存必然会导致内存溢出,而在一些数据处理中我们不得不去处理海量数据,在做数据处理中,我们常见的手段是分解,压缩,并行,临时文件等方法。 http://t.cn/RqkllK2

 

数据科学家快报   网页版 2016-05-18 21:06
分析 计算框架 Hadoop
【数据科学家日报】Apache Hadoop入门 Getting Started with Apache Hadoop http://t.cn/RqFZGQE

 

IBM大数据大学   网页版 2016-05-18 18:53
计算框架 资源 PDF Spark 幻灯片
DataBrick于5月11日正式宣布 Spark 2.0 预览版可供下载试用了! 自从Spark 1.x 发布以来,这个可能是最大的一个版本更新了,到底Spark 2.0 给大家带来了什么样的惊喜呢?IBM大数据大学第一时间与大家分享来自DataBrick 首席架构师 Reynold Xin 的介绍,讲义下载: http://t.cn/RqFviAP 如果你想学习Spar…全文: http://m.weibo.cn/5652330713/3976558232562580…全文: http://m.weibo.cn/5652330713/3976558232562580…全文: http://m.weibo.cn/5652330713/3976558232562580…全文: http://m.weibo.cn/5652330713/3976558232562580

IBM大数据大学 网页版 转发于2016-05-18 19:00
最新的有关Spark 2.0 预览版的介绍 ! @爱可可-爱生活 @付亮的竞争情报应用 @李瀛寰 @好东西传送门

 

Linux中国   网页版 2016-05-18 15:23
UCloud 可用区的设计理念及功能图文详解 http://t.cn/RqkrMZ3 » 作者: UCloud云计算 » 带宽管理?EIP 跨可用区绑定?两地三中心?……您想要的都有!

 

神经病回家了   网页版 2016-05-18 15:08
分析 代码 可视化
#数据可视化# G2 蚂蚁金服新一代数据可视化引擎对外发布啦!查看详情:http://t.cn/RqkBY3X 官网:http://t.cn/RqkBY3a @玉伯也叫黑侠 @Python发烧友 @wo_is神仙 @高端工程师 @ruanyf @cloud臻儿 求转发!!

玉伯也叫黑侠 网页版 转发于2016-05-18 17:23
G2 是我用过的最好用的图形图表类库,G2 不仅仅是图表类库,而是一整套图形语法,可以用来生成各种自定义图表。与各种 xxCharts 不同,G2 是生成 xxCharts 的引擎。欢迎试用,欢迎反馈。

 

投中信息   网页版 2016-05-18 14:58
【维克托•迈尔-舍恩伯格:创业公司如何使用大数据获取成功?】现在数据就像冰山一样,多数的价值是在水的下面,如果要把这个数据不断重复使用的话,针对不同目的使用可以发现所在。作为创业公司可以采用不同的方式使用大数据,通过大数据可以进行创新,可以了解你的客户。http://t.cn/RqkHreR

 

数说工作室网站   网页版 2016-05-18 11:08
分析 物联网
【数据分析师在物联网的哪个环节?】物联网主要分三个层次:(1)感知层:由各种传感器以及传感器网关构成,其主要功能是采集数据。(2)网络层:传递数据信息;(3)应用层:它与行业需求结合,利用云计算、模式识别等智能技术对数据进行处理分析。数据分析师聚焦在这个层http://t.cn/RqkHesb

 

伯乐在线官方微博   网页版 2016-05-18 11:00
计算框架 数据库 Hadoop HBase
《列式存储 HBase 系统架构学习》Hbase是bigtable的开源版本,是建立的hdfs之上,提供高可靠性、高性能、列存储、可伸缩、实时读写的数据库系统。Hbase目标主要依靠横向扩展,通过不断增加廉价的商用服务器,来增加计算和存储能力。http://t.cn/Rqeqbpz(by @ixirong ,欢迎加入伯乐在线专栏作者:…全文: http://m.weibo.cn/1670481425/3976439017627111

 

MySQL   网页版 2016-05-18 09:14
数据库 MySQL NoSQL
《Handler-Socket Plugin for MySQL – SQL的功能、NoSQL的性能》 HandlerSocket plugin for MySQL 已经出来一段时间了, 鉴于HandlerSocket和Inn 详见: http://t.cn/zHKvtIH #mysql#

 

玉溪网   网页版 2016-05-18 08:12
【300个城市比”年轻” 玉溪居四线城市榜11位】近日,腾讯大数据发布《2016全国城市年轻指数报告》,意图衡量城市活力,解读青年的力量如何改变城市。在二线城市年轻指数排行榜的前30座城市中,昆明未在其列。云南曲靖市,玉溪市在四线城市活力榜单中分别位于第10、11位。http://t.cn/Rqk0TdE

 

牛津小裁缝   网页版 2016-05-18 06:09
Urban Studies的这篇文章用比较新奇的方法和大数据( Google Books ),测算了1700年以来中国294个城市的国际知名度,北京、香港、上海、广州、南京、澳门、天津、台北、重庆和拉萨是知名度最高的十个城市,同时NYT的数据证明媒体曝光对知名度有重要影响,但对香港上海天津这样的商埠城市并不显著。

 

IBM大数据大学   网页版 2016-05-17 23:05
应用 George Star PDF 地理
今天跟大家分享一篇来自IBM研究院George Star分享的“利用大数据技术实现数据中心IT基础服务的智能管理”文章,利用大数据实时分析技术,对数据中心各类服务器,路由器等设备的自动监控,利用洞察分析进行智能的管理! 讲义下载: http://t.cn/Rqk6q1M

 

分析 计算框架 Spark
Spark性能优化指南——高级篇 – 数据科学家 继基础篇讲解了每个Spark开发人员都必须熟知的开发调优与资源调优之后,本文作为《Spark性能优化指南》的高级篇,将深入分析数据倾斜调优与shuffle调优,以解决更加棘手的性能问题 http://t.cn/Rqkip6R

 

ARGV   网页版 2016-04-28 17:33
数据库 HBase 代码 黄浩松 搜索
想着Elasticsearch一碰到大范围搜索就会卡住数据入库,如果能像普通进程一样用上CGroup限制一下搜索的资源占用就好了。然后上github一搜,还真有个叫JCgroup的项目 http://t.cn/8FXtJq1 作者是阿里巴巴的黄浩松,估计是做出来限制HBase的~

ARGV 网页版 转发于2016-05-18 22:26  回复 @hivefans东杰 “indices.breaker.fielddata.limi…”
回复@hivefans东杰:这只是内存限制。而ES目前的版本,最不要紧的就是内存了,大范围搜索占用的都是CPU和blkio

 

回复