当前位置:首页>文档>数据挖掘重点_三桶油_中国石油_中石油笔试_笔试。!_7-专业测试部分(仅需看自己专业即可)_3.5计算机知识_4数据库与数据挖掘分析

数据挖掘重点_三桶油_中国石油_中石油笔试_笔试。!_7-专业测试部分(仅需看自己专业即可)_3.5计算机知识_4数据库与数据挖掘分析

  • 2026-03-07 01:37:32 2026-01-26 18:21:05

文档预览

数据挖掘重点_三桶油_中国石油_中石油笔试_笔试。!_7-专业测试部分(仅需看自己专业即可)_3.5计算机知识_4数据库与数据挖掘分析
数据挖掘重点_三桶油_中国石油_中石油笔试_笔试。!_7-专业测试部分(仅需看自己专业即可)_3.5计算机知识_4数据库与数据挖掘分析
数据挖掘重点_三桶油_中国石油_中石油笔试_笔试。!_7-专业测试部分(仅需看自己专业即可)_3.5计算机知识_4数据库与数据挖掘分析
数据挖掘重点_三桶油_中国石油_中石油笔试_笔试。!_7-专业测试部分(仅需看自己专业即可)_3.5计算机知识_4数据库与数据挖掘分析
数据挖掘重点_三桶油_中国石油_中石油笔试_笔试。!_7-专业测试部分(仅需看自己专业即可)_3.5计算机知识_4数据库与数据挖掘分析
数据挖掘重点_三桶油_中国石油_中石油笔试_笔试。!_7-专业测试部分(仅需看自己专业即可)_3.5计算机知识_4数据库与数据挖掘分析
数据挖掘重点_三桶油_中国石油_中石油笔试_笔试。!_7-专业测试部分(仅需看自己专业即可)_3.5计算机知识_4数据库与数据挖掘分析
数据挖掘重点_三桶油_中国石油_中石油笔试_笔试。!_7-专业测试部分(仅需看自己专业即可)_3.5计算机知识_4数据库与数据挖掘分析
数据挖掘重点_三桶油_中国石油_中石油笔试_笔试。!_7-专业测试部分(仅需看自己专业即可)_3.5计算机知识_4数据库与数据挖掘分析
数据挖掘重点_三桶油_中国石油_中石油笔试_笔试。!_7-专业测试部分(仅需看自己专业即可)_3.5计算机知识_4数据库与数据挖掘分析

文档信息

文档格式
doc
文档大小
0.037 MB
文档页数
10 页
上传时间
2026-01-26 18:21:05

文档内容

数据库技术的演化 20世纪60年代:数据收集,数据库创建,信息管理系统(IMS)和数据库管理系统(DBMS) 20世纪70年代:关系数据模型,关系数据库管理系统工具 20世纪80年代:关系数据库管理系统(RDBMS), 高级数据模型(面向对象、演绎等等)和 面向应用的DBMS(空间的、科学的、工程的) 20世纪90年代至今:数据挖掘和数据仓库,多媒体数据库和web数据库 数据挖掘(数据库中的知识发现)� 在大型数据库中提取有趣的(重要的,隐含的,目前未知的,潜在有用的)信息和模式 知识发现过程 KDD过程的步骤 了解应用领域:相关的预备知识和应用目标 创建一个目标数据集:数据选择,数据清理和预加工(可能占用60%精力) 数据变换:发现有用的特征,维/变量的变换,常量的表示 选择数据挖掘功能:汇总,分类,关联,聚集,选择挖掘算法 数据挖掘:搜索兴趣模式 模式评估和知识表达:可视化,变形,去掉冗余模式等等 使用发现的知识 何种数据上进行数据挖掘 关系数据库,数据仓库,事务数据库,高级数据库与信息库,面向对象和对象-关系数据库 空间数据库,时间序列数据库和暂时数据库,文本数据库和多媒体数据库 异源数据库和继承数据库 模式兴趣度度量:一个模式是有趣的如果(1)它易于被人理解;(2)在某种程度上,对于 新的或测试数据是有效的;(3)是潜在有用的;(4)是新颖的或对用户正在寻求证实的 假设是有效的。 数据挖掘和数据仓库结合 数据挖掘系统,数据库管理系统,数据仓库,非耦合,疏松耦合,半紧密耦合,紧密耦合 联机分析数据挖掘 数据挖掘和OLAP的结合,交互式挖掘多层知识 通过下钻/上卷,转轴,切片/切块等,在不同的层次,挖掘知识和模式的必要性。 多种挖掘功能的综合 特征化的分类,先聚集再关联 数据仓库 一个与组织结构的操作数据库分别维护的决定支持数据库。 为统一的历史数据分析提供坚实的平台,对信息处理提供支持。 “数据仓库是一个面向主体的、集成的、时变的、非易失的数据集合,支持管理过程的决 策过程”—W. H. Inmon 数据仓库和异源DBMS 传统的异种数据库的集成: 在异种数据库的顶部建立一个包装程序和集成程序 查询驱动方法 当一个查询提交客户站点,首先使用元数据字典对查询进行转换,将它转换成相应异种站 点上的查询,然后,不同站点返回的结果被集成为全局回答 查询驱动方法需要复杂的信息过滤,并且与局部数据源上的处理竞争资源 数据仓库:使用更新驱动的方法,为集成的异种数据库系统带来了高性能 将来自多个异种源的信息预先集成,并存储与数据仓库中,供直接查询和分析 OLTP和OLAP的区别用户和系统的面向性:OLTP面向顾客,而OLAP面向市场 数据内容:OLTP系统管理当前数据,而OLAP管理历史的数据。 数据库设计:OLTP系统采用实体-联系(ER)模型和面向应用的数据库设计,而OLAP系统 通常采用星形和雪花模型 视图:OLTP系统主要关注一个企业或部门内部的当前数据,而 OLAP 系统主要关注汇总 的统一的数据。 访问模式:OLTP访问主要有短的原子事务组成,而OLAP系统的访问大部分是只读操作, 尽管许多可能是复杂的查询 为什么需要一个分离的数据仓库 提高两个系统的性能 数据库管理系统—OLTP的协调: 存取方法,索引,同步控制,恢复 数据仓库—OLAP的协调: 复杂的OLAP查询,多维视图,合并 不同的功能和不同的数据: 数据维护: 决策支持需要历史数据,而操作数据库一般不维护历史数据 数据统一: 决策支持需要将来自异种源的数据统一(如聚集和汇总) 数据质量: 不同的数据源通常使用不一致的数据表达,代码和形式,这些都需要协调 雪花模式: 雪花模式是星型模式的变种,其中某些维表示规范化的,而数据进一步分解到 附加的维表中,它的图形类似于雪花的形状 事实星座表: 多个事实表共享维表,这种模式可以看作星型模式及,因此称为星系模式或 事实星座 数据仓库的设计 关于数据仓库设计的四种视图 自顶向下视图:允许选择数据仓库的所需的相关信息 数据源视图:揭示被操作数据库系统捕获、存储和管理的信息。 数据仓库视图:由事实表和维表构成 商务查询视图:从最终用户的角度透视数据仓库的数据 DM的过程 数据准备阶段: 数据的选择(选择相关的数据,净化(消除噪音、冗余数据),推测(推 算缺失数据),转化(离散值数据与连续值数据之间的相互转换、数据值的分组分类、数 据项之间的计算组合等),数据缩减(减少数据量),经过处理过的数据一般存储在数据 仓库中。数据准备是否做得充分将影响到数据挖掘的效率和准确度以及最终模式的有效性。 挖掘阶段:该阶段是数据挖掘的核心步骤,也是技术难点所在。根据数据挖掘的目标,采 用人工智能、集合论、统计学等方法,应用相应的数据挖掘算法,分析数据并通过可视化 工具表述所获得的模式或规则。 评价阶段:在数据挖掘中得到的模式可能是没有实际意义或没有使用价值的,也有可能不 能准确反映数据的真实意义,甚至在某些情况下是与事实相反的,因此需要评估,确定哪 些是有效的、有用的模式。评估可以根据用户多年的经验,有些模式也可以直接用数据来 检验其准确性。 巩固和运用阶段:用户理解的、并被认为是符合实际和有价值的模式形成了知识。同时还 要对知识进行一致性检查,解决与以前得到的知识互相冲突、矛盾的地方,使知识得到巩 固。运用知识有两种方法:一种是只需看知识本身所描述的关系或结果,就可以对决策提 供支持;另一种是要求运用知识对新的数据进行分析,由此可能产生新的问题,而需要对 知识作进一步的优化。 数据预处理的必要性:数据挖掘要求的数据:干净、准确、简洁、完整。原始数据存在的问题: 杂乱性:来自多种数据库和文件系统,缺乏统一标准和定义。 冗余性:同一个事务在数据库中可能存在多个相同的物理描述。 不完整性:设计缺陷或人为原因造成数据丢失、不确定、不完整。 数据预处理的基本功能:数据清洗,数据集成,数据变换,数据约简 数据预处理的基本功能-数据清洗 功能:去除源数据中的噪声数据和无关数据,重复数据处理,缺值数据处理 数据类型转换 方法:,有监督方法:有领域专家指导:无监督方法:样本数据训练算法 数据预处理的基本功能-数据集成 功能: 数据的选择:从多数据源中选择数据 数据冲突处理:如字段同名异义、异名同义、长度不同。 数据不一致处理:如单位、命名、结构、含义不一致。 数据类型的选择 数据预处理的基本功能-数据变换 功能: 格式化:将元组集按照格式化条件合并,即对属性值量纲的归一化处理。 归纳:处理元组属性值之间的“is-a”语义关系。 多维数据组织:采用切片、旋转、投影等操作将原始数据按照多维立方体形式组织成为不 同层次、不同粒度、不同维度的聚集。 数据预处理的基本功能-数据简化 功能:在对数据挖掘任务和原始数据充分理解的基础上,发现依赖于目标的表达数据的有 用特征,从而尽可能地精简数据量。 方法:属性选择:属性剪枝、并枝、相关分析。 数据抽样:随机抽样、等间隔抽样、分层抽样。 数据预处理的主要方法 基于约略集的属性约简方法:按等价关系对属性集进行划分,求出最小约简集。 基于概念树的数据浓缩方法:将元组逐层归纳为概念树,并去除噪声数据。 基于信息论的数据泛化方法:数据立方体法、面向属性的归纳方法、最大熵方法。 基于统计分析的属性选取方法:主成分分析、回归分析、公共因素模型分析,找出特征属 性。 遗传算法:高效进行数据聚类预处理。 OLAP服务器类型 关系OLAP (ROLAP) 使用关系和扩充关系DBMS存放并管理数据仓库,而OLAP中间件支持其余部分。 包括每个DBMS后短的优化,聚集导航逻辑的实现,和附加的工具和服务 更大的可伸缩性 多维OLAP (MOLAP) 基于数组的多维存储引擎(稀疏矩阵技术) 对预计算的汇总数据的快速索引 混合OLAP (HOLAP) 用户的灵活性,例如,低层次:相关的,高层次:数组 特殊的SQL服务器 在星型和雪花模式上支持SQL查询 数据仓库后端工具和实用程序数据提取:从多个异种的外部数据源收集数据 数据清理:检测数据中的错误,可能时更正它们。 数据变换:将数据由遗产或宿主格式转换成数据仓库格式 21.表的存储空间,除了数据存储空间外,还包含索引存储空间。 22.数据挖掘可以针对任何类型的数据库进行,既包括传统的关系数据库,也包括非数据 库组织的文本数据源、Web数据源以及复杂的多媒体数据源等 1.关系数据库2.数据仓库3.文本数据库4.复杂类型数据库 23.元数据按其所描述的内容,可以分为三类。 (1)关于基本数据的元数据。(2)关于数据处理的元数据。(3)关于企业组织的元数据。 24.根据用户对数据仓库的认识和使用目的,从用户的角度分类可将数据仓库划分为两大 类(1)技术元数据(Technical Metadata)。(2)业务元数据(Business Metadata)。 25.元数据定义了数据从被抽取,到清洗、转换,再到导入数据仓库的全部过程。元数据 在数据抽取/转换中的作用如下。 (1)确定数据的来源。 (2)保证数据仓库内容的质量。 (3)实现属性间的映射与转换。 26.元数据的收集的方法有哪些 (1)数据源中元数据的收集。(2)数据模型中元数据的收 集。 (3)映射关系元数据的收集。(4)数据仓库应用元数据的收集。 27.按使用目的的不同,数据仓库的使用者可分为开发人员、维护人员和最终用户三类 28.时间维在几乎所有的MDDB或数据仓库中,都是最要的一个维,使用最为普遍。时间 维有以下两个特点。 (1)周期特征。时间维中包含许多周期(时间单位),如日、周、月、季、年等。这些周期之 间,存在着固定的转换规则。 (2)行业特征。不同的行业,其工作日各有特点。一般是每周5个工作日,但也有许例外, 如交通运输、零售等行业全年无休息日。 29.数据挖掘项目是一项系统工程,它作为从数据库中自动发现知识的过程,仍然需要来 自不同领域专家共同参与知识发现的全部过程。其中,发挥着主要作用的专家包括主题领 域专家、数据专家、数据分析专家和数据挖掘专家 30.数值型数据概念分层的方法主要有分箱、聚类分析、基于熵的离散化。 31.数据泛化的方法很多,较为常用和有效的方法有数据立方体、面向属性的归纳等方法。 32.从不同的角度考察,关联规则有多种分类。 (1)根据项对应属性的数据类型,关联规则可以分为布尔型和数值型。 (2)根据规则中数据的抽象层次,可以分为单层关联规则和多层关联规则。 (3)根据规则中涉及到的数据的维数,关联规则可以分为单维的和多维的。 (4)关联并不一定意味着相关或因果,有时需要识别不同的项是否相关,是否存在因果关系。 根据关联规则的各种扩展,可分为相关分析、最大模式和频繁闭项集、添加约束等类型。 33.多层、多维的数量型关联规则是前三种规则的复合体,挖掘的难度比较大。 最简单的关联规则是单维、单层的布尔关联规则。 在数据库挖掘中经常使用下列几种约束。 (1)知识类型约束。(2)数据约束。(3)维或层次约束。(4)兴趣度约束。(5)规则约束。 35.规则约束可以分为反单调的、单调的、简洁的、可转变的和不可转变的五种类型。 36.分类是数据挖掘的基本功能之一,它的目标是从数据集中提取出能够描述数据类基本 特征的模型,并利用这些模型把数据集中的每个对象都归入到其中某个已知的数据类中。 37.聚类分析的数据源可以分为两种类型,即结构化的数据和非结构化的数据。 38数据取样的过程有哪些A.Web数据采样。A.Web数据分析。A.Web数据调整。Web数据转换 39.数据预处理就是将来自不同数据源的各类数据,组织成为模式挖掘所必需的数据结构 数据预处理的过程有哪些(1)数据清洗。(2)数据集成。(3)数据转换。(4)数据约简。 40.自动摘录方法的突出优点是不受领域的限制。自动摘录方法的不足之处在于 (1)文章的书写是否规范对摘录效果的影响很大。(2)主题析出难以全面。 (3)易产生冗余句。(4)缺乏连贯。 数据仓库和数据库有何不同?它们有那些相似之处?数据仓库与传统数据库的关系 数据仓库在传统数据库的基础之上发展起来的,但它并不是对传统数库的彻底抛弃,而是 旨在弥补统数据库在数据分析能力方面的不足,以提供良好的大规模数据分析能力为己任 图为决策提供有效的技术支持。和传统数据库相比,数据仓库在体特征、存储内容、向用 户等方面,都有着重大的差异。正是由于这些差的存在,实现了数仓库技术在分析能力上 的突破。 数据抽取:在构建数据仓库的过程中,外部数据源所提供的数据并不都是有用的,有些数据 对决策并能提供支持,同时,外部数据源中数据冗余的现象也很普遍。数据仓库既然是面 向主题,么在外部数据源中,只有那些与主题相关的内容才是必需的、有使用价值的。因 此,必以主题的需求为依据,对数据源的内容进行有目的地选择,这一过程被称为“数据 抽取”(Data Extraction)。 数据清洗:数据仓库的外部数据源所提供的数据内容并不完美,存在着“脏数据”—即数据 有空缺、噪声等缺陷,而且在数据仓库的各据源之间,其内容也存在着不一致的现象。为 了控制这些对其进行处理,这一处理过程称为“数据清洗”(Data Cleaning)。对于任何 数据仓库而言,数据清洗过程都是必不可少的。 元数据:所谓元数据,就是有关数据的数据,它是关于数据仓库中数据,操作数据的进程以 及应用程序的结构和意义的描述信息,元数据在数据仓库的建立过程中,有着十分重要的 作用它所描述的对象,涉及数据仓库的各个方面。总之,数据是整个数据仓库中的核心部 件。 数据仓库中数据的非易失性:数据仓库中数据的非易失性,又称数据的稳定性,它包括两方 面的含义:其一是指数据仓库内容的更新、追加等操作是不频繁的,一般依据既定的周期 或条件阈值进行;其二是指,数据在导入数据仓库后,虽然也有删除、更新等操作,但决 定这种操作的阈值条件是较难满足的,这种情况的发生是非常罕见的,可以近似地认为, 数据一旦导入数据仓库后,就不再发生变化 在数据仓库的构建过程中,将客观事物从现实世界的存在到计算机内物理实现的抽象过程 划分为四个阶段, 所谓现实世界,即客观存在的世界,它是存在于现实中的各种客观事物及其相互关系 的总和。对于数据仓库而言,它的内容只是完整的客观世界的一个真子集,包含了对特定 决策进行支持所必需的所有客观对象。 所谓概念世界,是人们对现实世界中对象的属性进行条析、逐步概括和归纳之后,将 其以抽象的形式反映出来的结果。它包括概念和关系两大部分内容。 所谓逻辑世界,是指人们依据计算机物理存储的要求,将头脑中的概念世界进行转化, 从而形成的逻辑表达结果。 计算机世界,是指现实世界中的客观对象在计算机中的最终表达形式,即计算机系统 中的实际存储模型。客观对象的内容只有在计算机中实现了物理存储,才能供人们有效地 进行分析和处理。 粒度模型:粒度模型,是指数据仓库在构造过程中各种粒度参数的总和。在从概念模型构造 逻辑模型,由逻辑模型转换成计算机模型,最终构建数据仓库的过程中,它也起着至关重要的作用。 粒度:所谓粒度,是指数据仓库中记录数据或对数据进行综合时所使用的时间段参数,它决 定了数据仓库中所存储的数据单元在时间上的详细程度和级别。时间段参数越小,粒度级 别越低,数据就越详细、越具体;反之,时间段参数越大,粒度级别越高,就意味着数据 综合度越高,同时细节的损失也就越多。 OLAP:联机分析处理(Online Analytical Process, OLAP)就是这样一门分析技术,它以数据 仓库为应用平台,根据决策者的需求,迅速而灵活地对数据仓库中的大量数据进行复杂、 有效的分析处理,并将结果以直观的形式提供给决策分析人员,从而实现对决策的支持。 数据单元:“数据单元”又称“数据单元格”,是指多维数组的取值,即维数组的每个维都 选中一个维成员后所构成的数据组合。数据单元的表示方法为(维度1维成员,维度2维成 员,…,维度n维成员,变量值)。 多维数组:如果一个数据集合可以从多个角度进行观察,即具有多个维度,则根据这些维度 将数据组织所构成的数组,就是多维数组。多维数组是OLAP的核心,按其维度的数量, 也可称为“数据立方体”或“数据超立方”。多维数组可以用(维1,维2,维3,…,维n, 变量)来表示。 维成员:“维成员”是指某个维的某个具体取值。如果该维具有多个层次,则维成员也是由 在该维各层次上的取值组合而成的。 维:维是指人们观察某个数据集合的特定角度,它是以对数据的某个共性的提取为前提的。 维的层次:在同一个维度上,可以存在多个程度不同的细节,这些细节就是“维的层次”, 它是对“维”的进一步细化。当人们从某个特定角度观察问题时,按所依据的细节程度(即 维层次)的不同,可以得到多种描述方法。 维表:维表是用于记录维度的关系表。多维数据立方体中每个坐标轴上的值,各记录在一个 维表中,这样,一个n维的数据立方体,就有n张维表。 事实表:事实表是用于记录度量信息的关系表。多维数据立方体中所有的度量信息,均可记 录在同一个事实表中。因此,事实表的提交要比维表大得多。 空间数据库。主要指存储空间信息的数据库,其中数据可能以光栅格式提供,也可能用矢 量图形数据表示。对空间数据库的挖掘可以为城市规划、生态规划、道路修建提供决策支 持。 时序数据库。主要用于存放与时间相关的数据,它可用来反映随时间变化的即时数据或不 同时间发生的不同事件。对时序数据的挖掘可以发现事件的发展趋势、事物的演变过程和 隐藏特征,这些信息将对事件的计划、决策和预警是非常有用的。 关联分析:关联分析(Association Analysis)就是从大量的数据中发现项集之间有趣的联系、 相关关系或因果结构,以及项集的频繁模式。数据关联是数据库中存在的一类重要的知识 若两个或多个变量的取值之间存在某种规律性,则称之为关联。关联可分为简单关联、时 序关联、因果关联。关联分析的目的是找出数据库中隐藏的关联规则。 分类:分类(Classification)在数据挖掘中是一项非常重要的任务,目前在商业上应用最多。分 类的目的是找出一组能够描述数据集合典型特征的模型或函数,以便能够识别未知数据的 归属或类别。 数据挖掘中分类和回归的不同 分类和回归都可用于预测。预测的目的是从利用历史数据记录中自动推导出对给定数据的 推广描述,从而能对未来数据进行预测。和回归方法不同的是,分类的输出是离散的类别 值,而回归的输出则是连续数值。 聚类:聚类(Clustering)是将物理或抽象对象的集合分组成为由类似的对象组成的多个类的过 程。数据挖掘中聚类与分类分析方法的不同 聚类与分类分析方法不同,聚类分析是在没有给定划分类的情况下(如没有预定的分类表、 没有预定的类目),根据信息相似度进行信息聚集的一种方法。所以,聚类分析的输入数据 集是一组未标记的对象。聚类的目的是根据一定的规则,合理地进行分组或聚类,并用显 式或隐式的方法描述不同的类别。由于分析可以采用不同的算法,所以对于相同的数据集 合可能有不同的划分。在机器学习中,聚类是无指导学习的一个例子,分类是有指导学习 的一个例子,两者所采用的方法相差甚远,并且聚类的时间复杂度要比分类大得多。 信息摘要:信息摘要(Information Summarization)是一种自动编制文摘的技术,即利用计算机 将一篇文章浓缩成一篇短文的过程。文摘是以简洁的篇幅,忠实地反映原文内容的一段简 短文字。通过阅读文摘,人们可以快速地掌握大量文献的基本内容,提高获取信息的效率。 信息抽取:信息抽取(Information Extraction)就是根据一个事先定义好的、描述所需信息规格 的模板,从非结构化的文本中抽取相关信息的过程。这个模板通常说明了某些事件、实体 或关系的类型。 元数据挖掘:元数据挖掘(Metadata Mining)是指对元数据进行的挖掘。例如,对文本元数据 的挖掘。文本元数据可以分为两类:一类是描述性元数据,包括文本的名称、日期、大小 类型等信息;一类是语义性元数据,包括文本的作者、标题、机构、内容等信息。 数据立方体:数据立方体是数据仓库和联机分析处理的核心概念之一。数据立方体中存放着 预先对部分或所有维(属性)的汇总结果。利用数据立方体对数据泛化的目的是把那些经常 被查询到的、运算开销较高的计算预先执行,并将执行结果存储到数据立方体中,以便于 知识发现、决策支持以及其他应用。数据立方体的维数不限定为3,它可以为n (n>1)。 聚类:聚类就是将数据对象组成不同的类(或簇),使得不同类对象之间的相似性尽量小,而 同类对象之间的相似性尽量大。 事实表是星形模型的核心,其内容可以分为那些部分?作用是什么? 事实表是星形模型的核心,其内容可以分为键和详细指标两部分。事实表通过键将各维表 组织起来,共同满足用户的查询需求;详细指标则是指记录在事实表中的具体数据,因其 构成与内容较为简单,因此在事实表中直接记录,供查询使用。 元数据的收集的作用 与业务数据相比,元数据的量是很小的,并且其变化的频率与幅度也远不如业务数据,因 此,对元数据采取自动收集的机制,不会对数据仓库的运行效率产生大的影响,也不会给 开发人员带来大量的额外工作。另一方面,有效的元数据收集机制,却可以大大提高数据 仓库的开发、维护与工作的效率。 项:对一个数据表而言,表的每个字段都具有一个或多个不同的值。字段的每种取值都是一 个项(Item)。在进行挖掘关联规则时,项一般表示成谓词的形式,如商品类型(计算机),其 中“商品类型”是字段名,“计算机”是字段的值。有时也直接用字段的值来表示。 事务:事务是项的集合。本质上,一个事务就是事实表中的一条记录。事务是项集 I的子集。 事务的集合称为事务集,通常就是事务数据库。 但E-R图法很难直接用于开发数据仓库,目前采用的解决方法是什么? 答:为了将用E-R图描述的企业模型方便地映射为数据仓库的数据模型,可以采取措施对 传统的E-R图方法进行改进,即引入以下概念。 (1)事实实体(Fact Entity)用于表示现实世界中一系列相互关联的事实,一般是查询分析的焦 点,在E-R图中用矩形表示; (2)维度实体(Dimension Entity)用于对事实实体的各种属性作细化的描述,是开展查询分析 的重要依据,在E-R图中用菱形表示; (3)引用实体(Quotation Entity)对应于现实世界中的某个具体实体或对象,在事务数据查询时能提供详细的数据,在E-R图中用六角形表示。 事实实体是数据仓库的中心,对应着数据仓库中的事实表。在数据仓库的高层模型中,它 具有以下的作用:为用户提供定量的数据基本分析点,提供多种访问事实数据的路径、维 度或指标,提供相关的标准数据,构成每个维度中最低一级的类别和一个信息组中的指标 作为存储大量数据的基础表格。 在数据仓库中,维度实体可以作为对用户查询结果进行筛选的工具。维度实体的另一 个重要作用,是支持数据仓库的整体构建,为不同的事实实体之间建立联系,从而将维度 实体和引用实体结合成一个完整的整体,以满足用户对数据仓库的访问需求。 引用实体的内容是从业务数据库中转换而来的。在数据仓库中,它往往体现为物理数 据库,向用户提供详细的数据,以实现对决策的支持。 数据仓库的反规范化处理的意义? 规范化处理的结果,表现为将一个复杂的、依赖关系众多的大表分解成为若干个内容 简洁、关系清楚的小表。应该指出,即使分解过程能满足连接无损性和依赖保持性的要求 这种分解结果也不是最佳的。因为数据仓库要实现对决策的支持,常常需要进行大规模的 查询操作,这种操作必然涉及对众多的小表进行动态的关联。 反规范化的另一种情况,是保持数据仓库中数据的适度冗余。在数据仓库中,有些 数据是基本的,涉及到大多数,甚至是全部的业务。依据规范化理论的要求,这类数据应 当存放在一个基本的表中,与记录其他具体业务数据的表相互独立,以供查询使用。这样 的结果是:每次进行查询操作时,都必须同时访问业务数据表和上述基本表,再对其进行 关联操作,这就增加了CPU和系统I/O的负担。因此,有必要将基本表中的内容作为冗余 数据,重复地插入到各个业务数据表中,从而以适当牺牲存储空间为代价,求得系统整体 效率的提升。 逻辑模型中,包括4种基本的结构元素。 (1)初始数据组。每个主要实体均拥有且只拥有一个初始数据组,它体现实体的本质特征。 初始数据组的内容和属性需要借助逻辑模型中的其他部件(如二次数据组等)来详细说明。 (2)二次数据组。每个主要实体均可拥有多个二次数据组,它们通过链接部件与初始数据 组相连,对初始数据组的内容和属性加以详细说明。 (3)连接数据组。它是在数据组之间建立联系的部件。借助于连接数据组,初始数据组与 二次数据组之间的联系得到了体现,二次数据组因而可以对初始数据组的内容作出详细说 明。 (4)类型数据组。它可以理解为在初始数据组主题下,逐级细化的分类数据,在图示中 通过初始数据组指向右侧的线段来表示。相对靠左侧的是超类型数据组,相对靠右侧的称 为子类型数据组。 说明逻辑模型4种基本结构间的关系? 从数据稳定性的角度来观察,除连接数据组之外,从初始数据组,到二次数据组,再 到类型数据组,其稳定性是逐步降低的。通过逻辑模型,设计者可向数据仓库的用户提供 出与概念模型相比更为详细的“系统功能结构图”。用户可以从中了解到系统所能提供的 功能,以及他们所能够获得的信息。在逻辑模型中,数据的属性已经初步体现出来,具备 了向物模型过渡的条件。 数据仓库的物理模型设计,必须依据以下要点进行。物理模型设计的主要内容,包括以下 哪几个方面。(1)数据存储结构的确定。。(2)索引策略的确定。(3)数据存放位置的确定。 (4)存储分配参数的确定。 MOLAP与ROLAP的比较 MOLAP与ROLAP是OLAP实现的两种主要方式,本节将从体系结构、数据存取等几方面,对这两种实现方式进行比较①。 1.体系结构:在ROLAP处理过程中,ROLAP服务器通过用户界面接受多维查询,将其转 化为标准的SQL查询,在RDBMS中执行,然后再将查询的结果,以适当的形式通过用户 端界面显示出来。多维数据立方体是借助 RDBMS平台实现的,因此系统的工作过程稍显 复 杂 2.数据的存取:MOLAP基本上是专为OLAP处理而设计的,具备良好的预综合能力,可 自建索引,可以多维查询语言直接对数据立方体进行存取操作,具有较快的数据存取速度 但在MOLAP中,数据的细节并不是物理地存储在MDDB中,不可直接访问。 3.数据的存储管理:在存储实现上,为了保证访问速度,MDDB一般以平面文件的形式 存放,文件的大小受操作系统的限制。 4.元数据的管理 对OLAP和数据仓库而言,元数据的地位是至关重要的,它是系统的核心数据。 OLAP的元数据包括数据层次关系的定义、数据间的转换规则、时间序列信息、数据的安 全控制规则、数据更新状态与方法的定义、数据源的描述等。在元数据的管理上,MOLAP 和ROLAP都缺乏统一的标准, 5.适应性:OLAP的适应性主要包括以下几方面的内容。 (1)对维数变化的适应性。MOLAP具有较高的预综合度,随维数的增加,数据超立方体 的体积增长十分迅速,管理较难;相比之下,RLOAP的预综合度较低,管理灵活,维的增 加对数据库总体的影响较小,适应性较强。 (2)对数据变化的适应性。由于MOLAP的高效率是建立在预综合基础上的,当数据变 化频繁时,MDDB进行预综合所需的开销将十分可观,因此其对数据变化的适应性不如 ROLAP。 (3)对数据量的适应性。作为ROLAP基础的RDBMS,其发展历程要远远超过MDDB,目 前已拥有较强的并行处理能力,能较好地适应大数据量的运算,同时在对软硬件环境的适 应能力上,也具有明显的优势。 应该指出,MOLAP与ROLAP二者之间,并没有绝对的优劣之分,特别是在对中小规 模数据的分析处理上,MOLAP高效率的优势十分明显。随着MDDB技术的不断发展,研 究的不断深入,MOLAP技术必将会有质的提高。 竞争情报系统概念 竞争情报系统是企业感知竞争环境变化、了解竞争对手动向、制定经营战略和竞争决策的 信息系统。通过它,可以帮助企业完成竞争情报的收集、整理、加工、储存、分析、研究 和管理等多项工作,提高企业获取竞争情报的效率,为企业在竞争上取得优势提供必要的 保障。 竞争情报系统的使用有助于企业提高竞争情报工作的效率,降低获取情报的成本,帮助企 业抓住市场机遇,使企业在市场变化中能够主动采取应变措施,同时也能够将不同部门提 供的单功能情报进行综合分析,得到重要的决策支持信息。 数据挖掘应用 在企业竞争情报系统中,数据挖掘可以解决文本自动分类、自动聚类、信息抽取、自 动摘要、关联规则分析等问题。 1.文本自动分类和聚类:利用自动分类和自动聚类技术,既可过滤掉不相关的文档,又可 将相关文档按照相关程度从高到低排序,方便用户查询,还可以将收集到的电子文档按类 别建立相应的数据库,提高查全率和查准率。 2.信息抽取:利用信息抽取工具,竞争情报人员根据情报要求可以从不同信息源中抽取多种情报,如竞争对手情报收集指标。竞争情报收集指标的值只是文本中的信息片段,在文 本中只占很小的比例,这不是文本所谈论的主题之一。 3.自动摘要:利用自动摘要功能可以大大节省情报人员每天花费在收集和阅读大量书面文档 上的时间,也可以在情报循环的报告阶段帮助情报人员生成报告的摘要,使主管能够选择 是否阅读分析报告的全文。 4.关联规则分析: 利用关联规则分析方法可以实现竞争对手分析、客户分析,将关联分析 与Web挖掘相结合可以分析网络欺骗、访问者的个人爱好,利用关联规则分析方法还可以 挖掘例外规则与意外规则。可以提高决策的科学性,降低企业在经营活动中的风险。