大数据处理利器——基础概念
参考文献:
大数据:互联网大规模数据挖掘与分布式处理
- 数据是新的石油:
“data mining” is the discovery of “models” for data.数据挖掘的覆盖范围:
- 数据库:大规模数据,简单查询;机器学习:少量数据,复杂模型;统计学:预测模型;DB:数据挖掘是分析处理的极限形式——检索大量数据的查询,结果是查询的答案;统计/机器学习:数据挖掘是模型的预测和推论;海量数据处理或大数据处理:上面两个都做!但更多强调扩展性(大数据)、算法和架构、海量数据的自动处理;
烧烤数据:
待续:邦弗朗尼原理(Bonferroni’s principle),邦弗朗尼校正(Bonferroni correction):在数据随机性假设的基础上,可以计算所寻找事件出现次数的期望值。如果该结果显著高于你所希望找到的真正实例的数目,那么可以预期,寻找到的几乎任何事物都是臆造的,也就是说,它们是在统计上出现的假象,而不是你所寻找事件的凭证。