读书人

大数据处理凶器基础概念

发布时间: 2013-02-02 12:27:16 作者: rapoo

大数据处理利器——基础概念

参考文献:

大数据:互联网大规模数据挖掘与分布式处理

    数据是新的石油:大数据处理凶器——基础概念“data mining” is the discovery of “models” for data.数据挖掘的覆盖范围:大数据处理凶器——基础概念
      数据库:大规模数据,简单查询;机器学习:少量数据,复杂模型;统计学:预测模型;DB:数据挖掘是分析处理的极限形式——检索大量数据的查询,结果是查询的答案;统计/机器学习:数据挖掘是模型的预测和推论;海量数据处理或大数据处理:上面两个都做!但更多强调扩展性(大数据)、算法和架构、海量数据的自动处理;
    挖掘不同类型的数据:高维数据、图数据、流数据(无限的、从不结束)、标签数据;使用不同的计算模型:MapReduce、Streams and online algorithms、Single machine in-memory;解决现实世界的问题:Recommender systems、Association rules、Link analysis、Duplicate detection;使用的工具:Linear algebra (SVD, Rec. Sys., Communities)、Optimization (stochastic gradient descent)、Dynamic programming (frequent itemsets)、Hashing (LSH, Bloom filters)组合:大数据处理凶器——基础概念烧烤数据:大数据处理凶器——基础概念

待续:邦弗朗尼原理(Bonferroni’s principle),邦弗朗尼校正(Bonferroni correction):在数据随机性假设的基础上,可以计算所寻找事件出现次数的期望值。如果该结果显著高于你所希望找到的真正实例的数目,那么可以预期,寻找到的几乎任何事物都是臆造的,也就是说,它们是在统计上出现的假象,而不是你所寻找事件的凭证。

读书人网 >其他相关

热点推荐