在维克托·迈尔-舍恩伯格及肯尼斯·库克耶编写的《大数据时代》中大数据指不用随机分析法(抽样调查)这样捷径,而采用所有数据进行分析处理。大数据的5V特点(IBM提出):Volume(大量)、Velocity(高速)、Variety(多样)、Value(低价值密度)、Veracity(真实性)
大数据课程简介
对于“大数据”(Big data)研究机构Gartner给出了这样的定义。“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产。
麦肯锡全球研究所给出的定义是:一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。
大数据技术的战略意义不在于掌握庞大的数据信息,而在于对这些含有意义的数据进行专业化处理。换而言之,如果把大数据比作一种产业,那么这种产业实现盈利的关键,在于提高对数据的“加工能力”,通过“加工”实现数据的“增值”
从技术上看,大数据与云计算的关系就像一枚硬币的正反面一样密不可分。大数据必然无法用单台的计算机进行处理,必须采用分布式架构。它的特色在于对海量数据进行分布式数据挖掘。但它必须依托云计算的分布式处理、分布式数据库和云存储、虚拟化技术。
扫清知识死角,精选经典内容
python基础
python开发环境搭建;python快速入门;python数据类型;python输入和输出;python分支语句;python循环语句;python字符串;python列表;python元件、集合、字典;python公共操作和推导式等。
Linux
Linux概述和环境搭建;Linux文件和目录结构;Linux文件编辑器;Linux网络配置和系统管理操作;Linux远程登录;Linux常见基本命令;Linux软件包管理;Shell概述;Shell脚本入门;Shell变量和运算符等。
数据库
数据库的概述和环境搭建;数据库的结构化查询语言;数据库的操作语言;数据库的约束;数据库的查询;数据库的多表操作;数据库的索引;开窗函数概述和over子句;开窗函数之排列函数等。
python爬虫
爬虫基础;request;数据提取;selenium;反爬;mongo数据库;scrapy等。
excel
数据分析概述;数据处理;数据统计;常用函数;图标类型;图标使用;数据透视表;数据透视图;大厂周报案例。
kettle
概述;安装;快速入门;共享数据库连接;转换的插入更新;转换的条件判断;转换与作业综合实战
Hadoop特点
分布式计算:Hadoop 采用 MapReduce
分布式计算框架,将大规模的计算任务分解成多个可以在不同节点上并行执行的子任务,充分利用集群中多个节点的计算资源,大大提高了数据处理的速度和效率。例如,在处理海量的日志文件时,MapReduce
可以同时在多个节点上对不同的日志文件片段进行分析和处理,然后将结果汇总,显著缩短了处理时间。
数据本地化处理:Hadoop 会尽量将计算任务分配到数据所在的节点上进行处理,避免了数据在网络中的大量传输,减少了网络带宽的占用和数据传输的延迟,进一步提高了数据处理的效率。
高扩展性
易于添加节点:Hadoop 的架构设计使得它能够轻松地扩展集群规模,只需将新的节点添加到集群中,Hadoop 就能够自动识别并将其纳入到集群的资源管理和任务调度中,实现了计算和存储资源的线性扩展,能够满足不断增长的数据处理需求。
支持大规模数据处理:可以处理 PB 级甚至 EB 级的海量数据,随着数据量的增加和业务的发展,Hadoop 集群能够通过增加节点数量来提升处理能力,而不会对现有的数据处理流程和应用程序造成太大的影响,具有很强的横向扩展性。
课程简介