数据科学导论复习

第一章 大数据概述

大数据定义

  • 大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合

大数据特点

  • 数据量大
  • 数据种类多样
  • 高实时性
  • 数据价值巨大但价值密度低

数据科学基本流程

数据科学基本流程

数据的不同处理模式

  • 批处理
    • 数据先保存起来,然后分析(全量数据)
    • 响应时间分钟/小时计
  • 流式处理
    • 数据及时处理,处理过后一般不保存
    • 响应时间毫秒计
  • 交互式处理
    • 数据先保存起来,然后查询(部分数据)
    • 响应时间秒级

大数据应用

  • 社会网络大数据
  • 交通大数据
  • 文本大数据
  • 时空数据

第二章 数据存储

数据的分类

  • 结构化数据
    • 可以使用关系型数据库表示和存储的数据,拥有固定结构
  • 半结构化数据
    • 弱结构化,虽然不符合关系数据模型的要求,但是含有相关标记(自描述结构),分割实体及期属性。如XML,JSON等
  • 非结构化数据
    • 没有固定数据结构,或很难发现统一数据结构的数据
    • 文档、文本、图片、视频、音频等

关系型数据库和NoSQL

SQL语言的类型

  • 类别一:Data Definition Language (DDL) 数据定义语言
  • 类别二:Data Manipulation Language (DML) 数据操作语言(增删改查)
  • 类别三: Data Control Language(DCL):数据控制语言,用来定义访问权限和安全级别
  • 类别四:Data Query Language(DQL):数据查询语言,用来查询记录(数据)。这些语言通过DBMS来操作DB,DBMS是一个系统

第三章 大数据计算

HDFS

  • Hadoop Distributed File System(HDFS),这是在由普通服务器组成的集群上运行的分布式文件系统,支持大数据的存储;通过多个节点的并行IO,提供极高的吞吐能力
    • 一个HDFS集群,一般由一个NameNode和若干DataNode组成,分别负责元信息的管理和数据块的管理
    • HDFS支持TB级甚至PB级大小文件的存储,它把文件划分成数据块(Block),分布到多台机器上进行存储
    • 为了保证系统的可靠性,HDFS把数据块在多个节点上进行复制(Replicate)

Hadoop MapReduce

  • 一种支持大数据处理的编程模型
  • MapReduce并行编程模型把计算过程分解为两个主要阶段,即Map 阶段和Reduce阶段。
  • Map函数处理<Key,Value>对,产生一系列的中间<Key,Value>对
  • Reduce函数合并所有具有相同Key值的中间键值对,计算最终结果
  • MapReduce计算模型,可以形式化地表达成Map:<k1,v1>-> list<k2,v2>, Reduce:<k2,list(v2)>->list<k3,v3>
    MapReduce
    MapReduce示例
  • 缺点
    • 仅支持MapReduce计算模型
    • MapReduce通过磁盘数据交换,效率低下

Spark

RDD

第四章 数据采集与整理

检测冗余属性

  • Pearson积距相关系数
  • 卡方检验

数据的距离

  • 欧几里得距离
  • 汉明距离
  • 明氏距离
  • 马氏距离

数据的相似度

  • Jaccard相关系数
  • 余弦相似度

数据的相关性

  • Pearson相关系数

有序数据和无序数据

  • 无序数据:每个数据样本的不同维度没有顺序关系
  • 有序数据:有

有序数据的距离测量

  • Spearman Rank(斯皮尔曼等级)相关系数

第八章 数据分析方法

机器学习基本流程

  • 业务场景分析
  • 数据处理
  • 训练机器模型和评价
  • 使用机器学习模型

机器学习分类

  • 有监督学习
    • 对于样本有输入X和预期输出Y
  • 无监督学习
    • 样本数据无需人工标注,无目标值
  • 半监督学习
    • 一小部分标注数据,大部分无标注数据
  • 强化学习
    • 对系统和环境建模,通过与外界不断交互,获得反馈,修正机器学习模型

第十章 数据可视化

数据可视化工具

  • Google Refine
  • Echarts
  • Tableau
  • Processing
  • D3(JS)
  • ColorBrewer

第十一章 文本分析

抓取控制

  • meta robots

    • <meta name="robots" content="...">中的content有多种取值

    • index:允许搜索引擎索引该页面。

    • noindex:禁止搜索引擎索引该页面。

    • follow:允许搜索引擎跟踪该页面上的链接。

    • nofollow:禁止搜索引擎跟踪该页面上的链接。

    • all:等同于index, follow,允许索引页面并跟踪链接。

    • none:等同于noindex, nofollow,禁止索引页面并跟踪链接。

    • noarchive:禁止搜索引擎缓存该页面的快照。

    • nosnippet:禁止搜索引擎在搜索结果中显示页面的摘要。

    • max-snippet:[number]:限制搜索引擎在搜索结果中显示的页面摘要的最大字符数。

    • noodp:禁止搜索引擎使用开放目录项目(ODP)中的描述作为页面的摘要。

    • notranslate:禁止搜索引擎提供该页面的翻译版本。

  • robots.txt

    1
    2
    User-agent: Googlebot   // 不允许谁抓取,不允许所有为*
    Disallow: / // 不允许抓取的页面路径

纵容恶意爬虫的危害

  • 额外带宽负担
  • 核心文本被爬取
  • 注册用户被扫描
  • 点击欺诈

独热编码

  • 词的独热表示是一种最简单最直接的词的向量化表示方式。主要步骤包含两步:

    • 对需要用到的文本中所有词进行编码(假设共用N个词),每个词有唯一的下标(0~N)。
    • 根据词下标 i 生成一个长度为N的向量,除了第i位为1外,其他位都为0。

绝对词频

  • 每个文档表示为一个n维向量,每一维对应一个单词,值为单词出现的次数

相对词频TF

  • 该词出现的次数/总词数

逆文档频率IDF

  • lg(文档总数/含有该词的文档数)

TF-IDF

  • 相对词频*逆文档频率

数据科学导论复习
https://sdueryrg.github.io/2024/12/26/数据科学导论复习/
作者
yrg
发布于
2024年12月26日
许可协议