数据仓库数据挖掘期末复习题(2024-2025第1学期大数据版)

1 数据分析的基本步骤有哪些?每个步骤的主要工作
2 关于大数据的4V理论是什么?
3 四种基本度量尺度适用的集中趋势和离散度量方法有哪些?
4 数据对象的相似性有哪些方法
5 数据属性的相关性有哪些方法(斯皮尔曼等级相关系数,皮尔森)
6 数据预处理的主要任务有哪些?每个任务要解决的问题主要有哪些?
7 脏数据主要有哪几种?产生的主要原因是什么?
8缺失值的处理方法有哪些?
9 什么是噪音数据?产生的原因有哪些?
10噪声数据的检测和处理方法有哪些?

11 什么叫数据集成?集成的框架结构?分类?数据集成解决的主要问题有哪些?例子

12 什么叫数据归约?主要有哪几类归约问题?

13 维度归约有哪两类技术?有什么区别?
14 什么是数据离散化和概念分层?
15 数据规范化/标准化的方法有哪些?形式,有什么作用?

16 数据仓库的主要特征是什么,对每一特征给予简要解释
17 数据仓库的作用
18 典型的数据仓库体系结构,各层简要说明
19数据库与数据仓库系统在设计上的差别
20数据仓库设计的过程有哪些
21模型设计(概念——逻辑;星型模型;粒度选择)
22ETL的内容

23 五种OLAP的操作,并说明每种的具体内容
24 MOLAP和ROLAP的体系结构,工作原理

25 什么叫数据立方体的预计算?为什么要进行预计算?面临的问题有哪些?有哪些策略?
26完整数据立方体的预计算方法
27什么叫数据泛化
28面向属性的泛化方法有哪两种方法及规则

29频繁模式挖掘相关概念(关联规则,支持度,置信度)
30关联规则挖掘的步骤
31Apriori方法(原理,例子)
32 FP-TREE(原理,例子)
33 为什么进行关联规则的主观性测试?有哪些指标及其特点

33 序列挖掘的相关概念
34 apriori-all算法(原理,例子)
35 GSP算法(原理,例子)

37过拟合的主要原因及其解决方法
38 关于基于混淆矩阵的几个主要指标及其作用
39 ROC曲线及其特点,计算

40 划分聚类基本思想和原理,k-means, K-medoid算法(原理,例子)
41 层次聚类基本思想和原理,AGNES, DIANA算法(原理,例子)
42 BIRCH算法相关概念,基本思想,例子
43 Chameleon基本思想和步骤
44 密度聚类相关概念(邻域,密度可达等)
45 DB-SCAN算法
46 OPTICS算法原理,例子
47 CLIQUE算法基本思想

48 什么是离群点?离群点挖掘有什么意义?主要有哪几类方法
49 基于距离和密度的离群点发现方法(相关概念,原理,例子)
50 基于聚类的离群点发现方法(原理,例子)

51 基于物品的协同推荐算法(原理,例子)
52 基于用户的协同推荐算法(原理,例子)
53 基于内容的推荐算法(原理)


数据仓库数据挖掘期末复习题(2024-2025第1学期大数据版)
https://sdueryrg.github.io/2025/03/03/数据仓库数据挖掘期末复习题(2024-2025第1学期大数据版)/
作者
yrg
发布于
2025年3月3日
许可协议