大数据技术复习--大数据感知与获取
引言数据采集的目标从指定数据源以不同的数据采集方法采集各类数据ODSOperational Data Store操作型数据存储最接近数据源中数据的一层用来存储多个数据源业务数据的系统其数据输入到数据仓库中进行分析ETL:抽取、转换、加载是数据获取的重要手段需要知道具体格式DWData Warehouse数据仓库概念的提出也把数据处理划分为了操作型处理和分析型处理两种不同类型从而建立起了DB数据库DMData Mart为了特定的应用目的而从数据仓库中独立出来的一部分数据也可称为主题数据ELTETL的时间成本和吞吐量限制堵塞导致ETL这种数据加工的方式不能满足于现在的企业发展需要把Transform转换和Load加载拆开这样处理数据的部分就专心计算就行了搬运数据的部分就专心搬运DIMDimension维表层这一层比较单纯举个例子就明白比如国家代码和国家名、地理位置、中文名、国旗图片等信息就存在DIM层中TMP每一层的计算都会有很多临时表专设一个DWTMP层来存储我们数据仓库的临时表元数据Metadata又称中介数据、中继数据为描述数据的数据data about data主要是描述数据属性property的信息用来支持如指示存储位置、历史数据、资源查找、文件记录等功能信息获取外部数据及获取方法网络爬虫又称网页蜘蛛是一种按照一定的规则自动抓取万维网信息的程序或者脚本。通用爬虫搜索引擎爬虫google百度垂直爬虫面向特定网站或者主题分布式爬虫大数据应用场景下使用分布式计算技术将网络数据抓取并行化。通过多个单机爬虫系统的有效协作和配合实现互联网的大数据抓取。主从式爬虫Master负责URL分发、负载均衡、心跳检测全局去重等服务Slave负责实际任务的抓取缺点主服务器容易成为系统瓶颈对等式爬虫每台服务器功能相同没有主从之分将主域名哈希取模决定所属服务器缺点某台服务器宕机会造成所有任务重新分配XpathXML路径语言XML Path Language它是一种用来确定XML文档中某部分位置的语言CSSCascading Style Sheets层叠样式表是一种用来表现HTML标准通用标记语言的一个应用或XML标准通用标记语言的一个子集等文件样式的计算机语言深网爬虫数据存于后台数据库中很少有显式的连接指向这些数据需要输入相关查询条件传统爬虫服务获取这些数据