大数据技术复习--大数据感知与获取

张

张建站

2026/6/12 5:51:52

10分钟阅读

引言数据采集的目标从指定数据源以不同的数据采集方法采集各类数据ODSOperational Data Store操作型数据存储最接近数据源中数据的一层用来存储多个数据源业务数据的系统其数据输入到数据仓库中进行分析ETL:抽取、转换、加载是数据获取的重要手段需要知道具体格式DWData Warehouse数据仓库概念的提出也把数据处理划分为了操作型处理和分析型处理两种不同类型从而建立起了DB数据库DMData Mart为了特定的应用目的而从数据仓库中独立出来的一部分数据也可称为主题数据ELTETL的时间成本和吞吐量限制堵塞导致ETL这种数据加工的方式不能满足于现在的企业发展需要把Transform转换和Load加载拆开这样处理数据的部分就专心计算就行了搬运数据的部分就专心搬运DIMDimension维表层这一层比较单纯举个例子就明白比如国家代码和国家名、地理位置、中文名、国旗图片等信息就存在DIM层中TMP每一层的计算都会有很多临时表专设一个DWTMP层来存储我们数据仓库的临时表元数据Metadata又称中介数据、中继数据为描述数据的数据data about data主要是描述数据属性property的信息用来支持如指示存储位置、历史数据、资源查找、文件记录等功能信息获取外部数据及获取方法网络爬虫又称网页蜘蛛是一种按照一定的规则自动抓取万维网信息的程序或者脚本。通用爬虫搜索引擎爬虫google百度垂直爬虫面向特定网站或者主题分布式爬虫大数据应用场景下使用分布式计算技术将网络数据抓取并行化。通过多个单机爬虫系统的有效协作和配合实现互联网的大数据抓取。主从式爬虫Master负责URL分发、负载均衡、心跳检测全局去重等服务Slave负责实际任务的抓取缺点主服务器容易成为系统瓶颈对等式爬虫每台服务器功能相同没有主从之分将主域名哈希取模决定所属服务器缺点某台服务器宕机会造成所有任务重新分配XpathXML路径语言XML Path Language它是一种用来确定XML文档中某部分位置的语言CSSCascading Style Sheets层叠样式表是一种用来表现HTML标准通用标记语言的一个应用或XML标准通用标记语言的一个子集等文件样式的计算机语言深网爬虫数据存于后台数据库中很少有显式的连接指向这些数据需要输入相关查询条件传统爬虫服务获取这些数据

PHPMD源码解析：揭秘PHP代码质量检测引擎的内部工作原理

PHPMD源码解析：揭秘PHP代码质量检测引擎的内部工作原理【免费下载链接】phpmd PHPMD is a spin-off project of PHP Depend and aims to be a PHP equivalent of the well known Java tool PMD. PHPMD can be seen as an user friendly frontend application for t…...

2026/5/20 17:34:39 阅读更多 →

西门子S7-1500 PLC在制药厂洁净空调BMS系统中的应用：精准控温控湿，ET200SP接...

A159-西门子S7-1500暖通空调制药厂洁净空调PLC程序案例，硬件采用西门子1500CPUET200SP接口IO模块，HMI采用西门子触摸屏。具体为制药厂BMS（洁净空调自控系统）医药洁净室程序，程序结构采用SCL编程。有详细注释&#xff…...

2026/5/7 17:28:37 阅读更多 →

Poem框架安全特性详解：CSRF防护、CORS配置和认证授权完整指南

Poem框架安全特性详解：CSRF防护、CORS配置和认证授权完整指南【免费下载链接】poem A full-featured and easy-to-use web framework with the Rust programming language. 项目地址: https://gitcode.com/gh_mirrors/po/poem Poem是一个基于Rust编程语言的…...

2026/5/11 7:12:54 阅读更多 →

CSDN AI分发撤回黄金15分钟法则：超时即不可逆！3类高危场景+2套应急回滚SOP（含工单提报话术模板）

更多请点击： https://kaifayun.com 第一章：CSDN AI 数字营销分发后的文章可以单独撤回某一个平台吗？ CSDN AI 数字营销平台在执行“一键多平台分发”时，会将同一份内容同步发布至 CSDN 博客、知乎、微信公众号（需授权…...

2026/6/12 3:05:44 阅读更多 →

OpenRocket：零基础掌握专业火箭设计与飞行仿真

OpenRocket：零基础掌握专业火箭设计与飞行仿真【免费下载链接】openrocket Model-rocketry aerodynamics and trajectory simulation software 项目地址: https://gitcode.com/GitHub_Trending/op/openrocket OpenRocket是一款功能强大的开源火箭设计与仿真…...

2026/6/10 18:58:26 阅读更多 →

请做coser的主人9下载2026官方正版

下载链接浅析全动态真人互动影像作品的工业化管线与设计逻辑：以《请做coser的主人9》为例近年来，随着硬件渲染能力的提升和流媒体解码技术的普及，全动态真人互动影像（Full Motion Video, 简称FMV）迎来了一波高频更…...

2026/6/11 12:17:19 阅读更多 →

深度解析移动端免Root系统提取工具：Payload-Dumper-Android技术架构与实现原理

深度解析移动端免Root系统提取工具：Payload-Dumper-Android技术架构与实现原理【免费下载链接】Payload-Dumper-Android Payload Dumper App for Android. Extract boot.img or any other partitions (images) from OTA.zip or payload.bin without PC 项目地址:…...

2026/6/10 14:38:37 阅读更多 →