博客
关于我
大数据概念
阅读量:520 次
发布时间:2019-03-07

本文共 1185 字,大约阅读时间需要 3 分钟。

大数据计算技术

 大数据概念

 大数据计算体系

 数据采集与建模

 大数据分析算法

 大数据处理技术

 数据可视化

 Hadoop计算体系

 HDFS/HBase存储架构

 MapReduce计算模型

 图并行计算框架

 流计算

 内存计算


大数据概念

 数据是什么?

 数据科学是什么?

 大数据基本属性是什么?


什么是大数据(Big Data)?   4V

Volume:   数据量异常庞大,一般达到PB量级

Variety:  数据呈异构化,数据来源呈多样性

Velocity: 数据处理要求时效性

Value:    单个数据无价值,但大规模数据拥有巨大价值


什么是大数据?

数据种类的多样性:文字、语音、图片、视频、信息等

数据对象的多样性:个人信息、个人数据、商业服务数据、社会公共数据、自然界数据、物质世界的数据

数据来源的多样性:在数据层面打破现实世界的界限,多家公司的共享替代一家公司的数据


大数据概念——数据的定义

数据的定义

数据的基本定义

计算机学科中数据的定义

数据的多样化

数据的形式多样化

数据的来源多样化

数据的范围多样化

数据转换过程

数据-信息-知识-价值转换模型


大数据概念——基本属性

Volume:大数据的超大规模

规模体现

    带来的影响:

    数据存储架构:

基于行-键表格存储格式的关系型数据库

基于分布式文件系统的分布式数据库

     计算模型:

离线批处理计算框架( MapReduce)

BSP图并行计算框架(Pregel、Hama)

交互式计算模型

大内存计算系统


Variety:大数据来源多样性与异构性

大数据类型划分:

依结构特征划分

依时效性划分

依关联特性划分

依数据类型划分

依数据来源划分

带来影响:

数据存储、管理和快速查询异常困难


Value:价值低密度特性

区别于传统数学统计学方法的关键之处 

 

传统数学统计学

大数据分析计算方法

处理对象

局部数据或数据子集

以数据整体或完整数据集作为处理对象

处理方法

基于抽样调查的随机分析方法

机器学习方法

通过数据的积累来训练和改进算法和计算程序

结果正确性

取决于随机抽样模型产生的数据集的代表性

处理数据量越大,

计算结果越越优化

大数据技术特征

大数据算法特性

大数据计算系统特性

大数据开发技术特性


大数据算法特性

 

 

大数据计算

传统统计学

样本空间

整个数据集

基于独立同分布原理抽取样本集

计算方法

机器学习方法

按照固定数学模型进行预测

优势

避免样本失真

预测结果的精度改进是一个动态

 

大数据计算系统特性

 

大数据计算系统

传统数据库系统

优势

基础模型

分布式文件系统

NoSQL非关系型数据库

关系型模型

支持非结构化或异构数据的存储和处理

支持分布式系统部署

支持超大规模数据集完成快速查询操作

存储格式

基于键值对的列存储格式

基于主键的行存储格式

更优的查询效率

更好的对计算模型的支持

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

转载地址:http://meznz.baihongyu.com/

你可能感兴趣的文章
MySQL 中随机抽样:order by rand limit 的替代方案
查看>>
MySQL 为什么需要两阶段提交?
查看>>
mysql 为某个字段的值加前缀、去掉前缀
查看>>
mysql 主从
查看>>
mysql 主从 lock_mysql 主从同步权限mysql 行锁的实现
查看>>
mysql 主从互备份_mysql互为主从实战设置详解及自动化备份(Centos7.2)
查看>>
mysql 主从关系切换
查看>>
MYSQL 主从同步文档的大坑
查看>>
mysql 主键重复则覆盖_数据库主键不能重复
查看>>
Mysql 事务知识点与优化建议
查看>>
Mysql 优化 or
查看>>
mysql 优化器 key_mysql – 选择*和查询优化器
查看>>
MySQL 优化:Explain 执行计划详解
查看>>
Mysql 会导致锁表的语法
查看>>
mysql 使用sql文件恢复数据库
查看>>
mysql 修改默认字符集为utf8
查看>>
Mysql 共享锁
查看>>
MySQL 内核深度优化
查看>>
mysql 内连接、自然连接、外连接的区别
查看>>
mysql 写入慢优化
查看>>