title: 数据仓库数据挖掘期末复习题(2024-2025第2学期限选版)
date: 2025-05-12 15:02:11
math: true
tags:
- 数据仓库数据挖掘
categories:
- 数据仓库数据挖掘
password:
- y13252606723

数据仓库数据挖掘期末复习题(2024-2025第2学期限选版)

前言

1 数据分析的基本步骤有哪些?每个步骤的主要工作

1.明确分析目的

2.数据收集

3.数据处理

4.数据挖掘

5.数据展现

6.报告撰写

2 关于大数据的4V理论是什么?

3 四种基本度量尺度适用的集中趋势和离散度量方法有哪些?

属性类别

数据的计量尺度

定类尺度(Nominal Level):标称属性

定序尺度(Ordinal Level):次序属性

定距尺度(Interval Level):数值型间隔尺度属性

定比尺度(Ratio Level):数值型定比尺度属性

练习

集中趋势的测度

离散程度

4 数据对象的相似性(单属性,多同种属性,混合属性)有哪些方法,jaccard,闵可夫斯基

数据矩阵与相异性矩阵

数据矩阵与相异性矩阵

单属性的相似性

标称属性

序数属性

数值(区间或比率属性)

小结

单个属性的临近性

多个同种类型属性的临近性度量

距离

闵可夫斯基距离

$$
d(x, y) = \left( \sum_{i=1}^n |x_i - y_i|^p \right)^{\frac{1}{p}}
$$
$$
i= (x_{i1}, x_{i2}, …, x_{ip}) \space, j = (x_{j1}, x_{j2}, …, x_{jp})
$$

标准化欧式距离
马氏距离

$$
d_M(x, y) = \sqrt{(x - y)^T S^{-1} (x - y)} \
(x - y): \text{两个数据点的差向量} \
S^{-1}: \text{协方差矩阵的逆矩阵} \
$$

标称属性

二元属性的邻近性度量

二元属性的邻近性度量1
二元属性的邻近性度量2

Jaccard相似系数

$$
J(A, B) = \frac{|A \cap B|}{|A \cup B|}
$$

余弦相似度

$$
\text{Cosine Similarity} = \cos(\theta) = \frac{\vec{A} \cdot \vec{B}}{|\vec{A}| |\vec{B}|}
$$

文章相似性求法

混合类型属性的相异性

方法

5 数据属性的相关性有哪些方法(斯皮尔曼等级相关系数,皮尔森)

斯皮尔曼等级相关系数

$$
r_s = 1 - \frac{6 \sum d_i^2}{n(n^2 - 1)} \
d_i: \text{每对数据的等级差,即 } d_i = R(x_i) - R(y_i) \
n: \text{数据对的数量} \
$$

皮尔逊积矩相关系数

6 数据预处理的主要任务有哪些?每个任务要解决的问题主要有哪些?

7 脏数据主要有哪几种?产生的主要原因是什么?

8 缺失值的处理方法有哪些?

热卡填充法

自动处理缺失数据的机制

9 什么是噪声数据?产生的原因有哪些?

10 噪声数据的检测和处理方法有哪些?

检测

简单统计分析

3σ原则

使用距离检测多元离群点

基于模型检测

基于密度

处理

方法

回归

聚类

数据平滑————分箱

分箱方法
分箱例子

11 什么叫数据集成?集成的框架结构?分类?数据集成解决的主要问题有哪些?例子

数据集成

集成的框架结构

集成的框架结构

数据集成解决的主要问题

异构性

分步性

12 什么叫数据归约?主要有哪几类归约问题?简要说明每种问题

为什么要数据规约

种类

维归约

数量规约

特征值规约

全面规约

13 维度归约有哪两类技术?有什么区别?

特征选择

特征提取

14 什么是数据离散化和概念分层?

离散化

概念分层

概念分层

15 数据增长有那些方面?具体可采用什么技术及每个技术要点(新)

维度增长

特征衍生/构造

数量增长

数据平衡

过采样
欠采样
集成学习

数据扩充

数据增强
数据合成
GAN

GAN

VAE

VAE

数据迁移

数据迁移

16 数据规范化/标准化的方法有哪些?形式,有什么作用?

概念

数据规范化

零-均值规范化

最小-最大规范化

小数定标规范化

17 数据编码技术有哪些?具体实现要点(新)

标签编码(LABEL ENCODING)

内容

优点

缺点

独热编码(ONE-HOT ENCODING)

内容

优点

缺点

二值化编码(BINARY ENCODING)

18 数据仓库的主要特征是什么,对每一特征给予简要解释

面向主题(Subject-Oriented)

集成性(Integrated)

非易失性(Non-Volatile)

时变性(Time-Variant)

19 数据仓库的作用

20 典型的数据仓库体系结构,各层简要说明

21 数据库与数据仓库系统在设计上的差别

系统设计的目标不同

面向的需求不同

数据来源不同

数据的处理类型不同

22 数据仓库设计的过程有哪些

自顶向下

自底向上

23 模型设计(概念——逻辑;星型模型;粒度选择)

含义

概念模型设计

逻辑模型设计

概念模型——E-R图

逻辑模型

要做的工作

关系模型

关系模型

维度/多维数据模型

星型模型

粒度

粒度选择

24 ETL的含义

含义

内容

25 五种OLAP的操作,并说明每种的具体内容

OLAP含义(OnLine Analytical Processing)

操作

上卷(drill-up,roll up): 概括数据

下钻(Drill down ,roll down): 上卷的逆操作

切片和切块(Slice and dice):投影和选择 :

转轴或旋转(Pivot or rotate):

26 MOLAP和ROLAP的体系结构,工作原理

RelationaI OLAP (ROLAP):

Multidimensional OLAP(MOLAP)

体系结构

MOLAP

MOLAP体系结构

ROLAP

ROLAP体系结构

工作原理

MOLAP

ROLAP

27 什么叫数据立方体的预计算?为什么要进行预计算?面临的问题有哪些?有哪些策略?

预计算

面临的问题

策略

以空间换时间策略

28 完整数据立方体的预计算方法

(补充)数据立方体

结构

导出关系定义

数据立方格

数据立方格

冰山立方体

完全立方体计算的多路数组聚集方法

多路数组聚集方法

BUC算法

流程

BUC流程

例子(AI)


假设有如下销售数据,维度为A、B、C,度量为“数量”,最小支持度为3:

A B C 数量
x p m 2
x p n 2
x q m 1
y p m 3
y p n 1
y q m 2
y q n 1

步骤1:统计各维度的单独计数(1维立方体)

步骤2:统计二维组合(2维立方体)

步骤3:统计三维组合(3维立方体)

步骤4:统计全体(,*)

步骤5:输出所有满足条件的单元

说明

29 什么叫数据泛化

30 面向属性的泛化方法有哪两种实现及规则

属性删除

属性泛化

31 频繁模式挖掘相关概念(关联规则,支持度,置信度)

定义

频繁模式挖掘

关联规则

支持度

置信度(confidence)

32 关联规则挖掘的步骤

找出所有频繁项集

由频繁项集产生强关联规则

33 Apriori方法(原理,例子)

思想

原理

第一步:发现频繁项集

第二步:生成关联规则

伪代码

Apriori算法伪代码

关联规则生成

关联规则生成

34 FP-TREE(原理,例子)

构造FP-Tree

挖掘FP-Tree

例子

FP树例子1

step1:建立模式频繁树

item count
I2 7
I1 6
I3 6
I4 2
I5 2
TID itemset list
T100 I2, I1, I5
T200 I2, I4
T300 I2, I3
T400 I2, I1, I4
T500 I1, I3
T600 I2, I3
T700 I1, I3
T800 I2, I1, I3, I5
T900 I2, I1, I3

step2:获取当前项的条件模式基

item conditional pattern base
I5 {I2, I1 : 1}, {I2, I1, I3 : 1}
I4 {I2, I1 : 1}, {I2 : 1}
I3 {I2, I1 : 2}, {I2 : 2}, {I1 : 2}
I1 {I2 : 4}

由于I2不存在叶子节点上,所以I2不存在条件模式基

step3:从条件模式基中获取频繁项集

step4:整合每个项的频繁项集,就是答案啦

item frequent itemsets
I5 {I2, I1, I5}, {I2, I5}, {I1, I5}
I4 {I2, I4}
I3 {I2, I3}, {I1, I3}, {I2, I1}
I1 {I2, I1}

例子2

PPT例子

35 为什么进行关联规则的主观性测试?有哪些指标及其特点(提升度)

背景

指标————提升度

$$
\text{lift}(A, B) = \frac{\text{support}(A \cup B)}{\text{support}(A) \times \text{support}(B)} = \frac{P(A \cup B)}{P(A)P(B)}
$$

指标————χ²(chi-square)指标

$$
\chi^2 = \sum_{i=1}^n \frac{(Observed_i - Expected_i)^2}{Expected_i}
$$
卡方指标例子

36 提升度的内涵(新)

37 序列挖掘的相关概念

序列挖掘

例子

序列模式挖掘概述

项集

事件

序列

序列数据库

子序列

最大序列

支持度

序列模式挖掘

序列模式挖掘算法AprioriAll算法

步骤

例子

38 apriori-all算法(原理,例子)

//39 GSP算法(原理,例子)(不考了,明确说了)

40 决策树算法(原理,例子)(新)

ID3算法

信息熵

类别1 类别2 类别n
类别概率 $p_1$ $p_2$ $p_n$
信息量 $-log(p_1)$ $-log(p_2)$ $-log(p_n)$

条件熵

$$
H(X|Y) = -\sum_{j=1}^m p(y_j) \sum_{i=1}^n p(x_i|y_j) \log_2 p(x_i|y_j)
$$
条件熵

信息增益

ID3算法基本思想

ID3步骤

朴素贝叶斯分类

贝叶斯公式

$$
P(Y|X_1,X_2,…,X_n)=\frac{P(X_1,X_2,…,X_n|Y)*P(Y)}{P(X_1,X_2,…,X_n)}=\frac{P(X_1|Y)P(X_2|Y)…*P(X_n|Y)*P(Y)}{P(X_1,X_2,…,X_n)}
$$

例子

朴素贝叶斯例

41 关于基于混淆矩阵的几个主要指标及其作用;特别是召回率和精度(新)

混淆矩阵

混淆矩阵

指标

混淆矩阵指标

例子

混淆矩阵例子

42 划分聚类基本思想和原理,k-means, K-medoid算法(原理,例子)

k-means算法

思想

伪代码

kmeans算法伪代码

例子

kmeans算法例子

k-medoid算法

思想

43 层次聚类基本思想和原理,AGNES, DIANA算法(原理,例子)

AGNES算法

过程

伪代码

连接方法

例子

AGNES例1
AGNES例2

DIANA算法

伪代码

例子

DIANA算法例子1
DIANA算法例子2

44 BIRCH算法相关概念,基本思想,例子

聚类特征CF

几个量

例子

BIRCH例子1
BIRCH例子2

45 Chameleon基本思想和步骤

思想

伪代码

Chameleon伪代码

46 密度聚类相关概念(邻域,密度可达等)

密度相关概念1

47 DB-SCAN算法,例子

思想

描述

例子

DBSCAN例子

48 OPTICS算法如何由结果图进行聚类

OPTICS

49 什么是离群点?离群点挖掘有什么意义?主要有哪几类方法

离群点

意义

方法

50 基于距离和密度的离群点发现方法(相关概念,K最邻近距离,原理,例子)

K-近邻邻域

K-最近邻距离

51 基于聚类的离群点发现方法(原理,例子)

原理

基于聚类的离群点