数据科学导论复习

第一章大数据概述

大数据定义

大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合

大数据特点

数据量大
数据种类多样
高实时性
数据价值巨大但价值密度低

数据科学基本流程

数据科学基本流程

数据的不同处理模式

批处理
- 数据先保存起来，然后分析(全量数据)
- 响应时间分钟/小时计
流式处理
- 数据及时处理，处理过后一般不保存
- 响应时间毫秒计
交互式处理
- 数据先保存起来，然后查询(部分数据)
- 响应时间秒级

大数据应用

社会网络大数据
交通大数据
文本大数据
时空数据

第二章数据存储

数据的分类

结构化数据
- 可以使用关系型数据库表示和存储的数据，拥有固定结构
半结构化数据
- 弱结构化，虽然不符合关系数据模型的要求，但是含有相关标记（自描述结构），分割实体及期属性。如XML，JSON等
非结构化数据
- 没有固定数据结构，或很难发现统一数据结构的数据
- 文档、文本、图片、视频、音频等

关系型数据库和NoSQL

SQL语言的类型

类别一：Data Definition Language (DDL) 数据定义语言
类别二：Data Manipulation Language (DML) 数据操作语言（增删改查）
类别三： Data Control Language（DCL）：数据控制语言，用来定义访问权限和安全级别
类别四：Data Query Language（DQL）：数据查询语言，用来查询记录（数据）。这些语言通过DBMS来操作DB，DBMS是一个系统

第三章大数据计算

HDFS

Hadoop Distributed File System(HDFS),这是在由普通服务器组成的集群上运行的分布式文件系统，支持大数据的存储；通过多个节点的并行IO，提供极高的吞吐能力
- 一个HDFS集群，一般由一个NameNode和若干DataNode组成，分别负责元信息的管理和数据块的管理
- HDFS支持TB级甚至PB级大小文件的存储，它把文件划分成数据块(Block),分布到多台机器上进行存储
- 为了保证系统的可靠性，HDFS把数据块在多个节点上进行复制(Replicate)

Hadoop MapReduce

一种支持大数据处理的编程模型
MapReduce并行编程模型把计算过程分解为两个主要阶段，即Map 阶段和Reduce阶段。
Map函数处理<Key,Value>对，产生一系列的中间<Key,Value>对
Reduce函数合并所有具有相同Key值的中间键值对，计算最终结果
MapReduce计算模型，可以形式化地表达成Map:<k1,v1>-> list<k2,v2>, Reduce:<k2,list(v2)>->list<k3,v3>
缺点
- 仅支持MapReduce计算模型
- MapReduce通过磁盘数据交换，效率低下

Spark

RDD

第四章数据采集与整理

检测冗余属性

Pearson积距相关系数
卡方检验

数据的距离

欧几里得距离
汉明距离
明氏距离
马氏距离

数据的相似度

Jaccard相关系数
余弦相似度

数据的相关性

Pearson相关系数

有序数据和无序数据

无序数据：每个数据样本的不同维度没有顺序关系
有序数据：有

有序数据的距离测量

Spearman Rank（斯皮尔曼等级）相关系数

第八章数据分析方法

机器学习基本流程

业务场景分析
数据处理
训练机器模型和评价
使用机器学习模型

机器学习分类

有监督学习
- 对于样本有输入X和预期输出Y
无监督学习
- 样本数据无需人工标注，无目标值
半监督学习
- 一小部分标注数据，大部分无标注数据
强化学习
- 对系统和环境建模，通过与外界不断交互，获得反馈，修正机器学习模型

第十章数据可视化

数据可视化工具

Google Refine
Echarts
Tableau
Processing
D3(JS)
ColorBrewer

第十一章文本分析

抓取控制

meta robots
- <meta name="robots" content="...">中的content有多种取值
- index：允许搜索引擎索引该页面。
- noindex：禁止搜索引擎索引该页面。
- follow：允许搜索引擎跟踪该页面上的链接。
- nofollow：禁止搜索引擎跟踪该页面上的链接。
- all：等同于index, follow，允许索引页面并跟踪链接。
- none：等同于noindex, nofollow，禁止索引页面并跟踪链接。
- noarchive：禁止搜索引擎缓存该页面的快照。
- nosnippet：禁止搜索引擎在搜索结果中显示页面的摘要。
- max-snippet:[number]：限制搜索引擎在搜索结果中显示的页面摘要的最大字符数。
- noodp：禁止搜索引擎使用开放目录项目（ODP）中的描述作为页面的摘要。
- notranslate：禁止搜索引擎提供该页面的翻译版本。

robots.txt

1 2	`User-agent: Googlebot // 不允许谁抓取，不允许所有为* Disallow: / // 不允许抓取的页面路径`

纵容恶意爬虫的危害

额外带宽负担
核心文本被爬取
注册用户被扫描
点击欺诈

独热编码

词的独热表示是一种最简单最直接的词的向量化表示方式。主要步骤包含两步：
- 对需要用到的文本中所有词进行编码（假设共用N个词），每个词有唯一的下标（0~N）。
- 根据词下标 i 生成一个长度为N的向量，除了第i位为1外，其他位都为0。

绝对词频

每个文档表示为一个n维向量，每一维对应一个单词，值为单词出现的次数

相对词频TF

该词出现的次数/总词数

逆文档频率IDF

lg(文档总数/含有该词的文档数)

TF-IDF

相对词频*逆文档频率

数据科学导论复习

https://sdueryrg.github.io/2024/12/26/数据科学导论复习/

作者

yrg

发布于

2024年12月26日

许可协议

NoSQL复习上一篇

编译原理复习下一篇