77范文网 - 专业文章范例文档资料分享平台

CDA题库(7)

来源:网络收集 时间:2020-05-23 下载这篇文档 手机版
说明:文章内容仅供预览,部分内容可能不全,需要完整文档或者需要复制内容,请下载word后使用。下载word有问题请添加微信号:或QQ: 处理(尽可能给您提供完整文档),感谢您的支持与谅解。点击这里给我发消息

A 18.3 B 22.6 C 26.8 D 27.9

22.考虑值集{12 24 33 2 4 55 68 26},其四分位数极差是:(A) A 31 B 24 C 55 D 3

23.下列哪个不是专门用于可视化时间空间数据的技术: (B) A 等高线图 B 饼图 C 曲面图 D 矢量场图

24.在抽样方法中,当合适的样本容量很难确定时,可以使用的抽样方法是: (D) A 有放回的简单随机抽样 B 无放回的简单随机抽样 C 分层抽样 D 渐进抽样

25.数据仓库是随着时间变化的,下面的描述不正确的是 (C) A. 数据仓库随时间的变化不断增加新的数据内容; B. 捕捉到的新数据会覆盖原来的快照;

C. 数据仓库随时间变化不断删去旧的数据内容; D. 数据仓库中包含大量的综合数据,这些综合数据会随着时间的变化不断地进行重新综合; 26.关于基本数据的元数据是指: (D)

A. 基本元数据与数据源,数据仓库,数据集市和应用程序等结构相关的信息; B. 基本元数据包括与企业相关的管理方面的数据和信息; C. 基本元数据包括日志文件和简历执行处理的时序调度信息;

D. 基本元数据包括关于装载和更新处理,分析处理以及管理方面的信息; 27.下面关于数据粒度的描述不正确的是: (C)

A. 粒度是指数据仓库小数据单元的详细程度和级别; B. 数据越详细,粒度就越小,级别也就越高;

C. 数据综合度越高,粒度也就越大,级别也就越高;

D. 粒度的具体划分将直接影响数据仓库中的数据量以及查询质量. 28.在有关数据仓库测试,下列说法不正确的是: (D) A. 在完成数据仓库的实施过程中,需要对数据仓库进行各种测试.测试工作中要包括单元测试和系统测试.

B. 当数据仓库的每个单独组件完成后,就需要对他们进行单元测试.

C. 系统的集成测试需要对数据仓库的所有组件进行大量的功能测试和回归测试. D. 在测试之前没必要制定详细的测试计划. 29.OLAP技术的核心是: (D) A. 在线性;

B. 对用户的快速响应; C. 互操作性.

D. 多维分析;

30.关于OLAP的特性,下面正确的是: (D)

(1)快速性 (2)可分析性 (3)多维性 (4)信息性 (5)共享性 A. (1) (2) (3) B. (2) (3) (4) C. (1) (2) (3) (4) D. (1) (2) (3) (4) (5)

31.关于OLAP和OLTP的区别描述,不正确的是: (C)

A. OLAP主要是关于如何理解聚集的大量不同的数据,它与OTAP应用程序不同 B. 与OLAP应用程序不同,OLTP应用程序包含大量相对简单的事务 C. OLAP的特点在于事务量大,但事务内容比较简单且重复率高 D. OLAP是以数据仓库为基础的,但其最终数据来源与OLTP一样均来自底层的数据库系统,两者面对的用户是相同的

32.OLAM技术一般简称为“数据联机分析挖掘”,下面说法正确的是: (D) A. OLAP和OLAM都基于客户机/服务器模式,只有后者有与用户的交互性 B. 由于OLAM的立方体和用于OLAP的立方体有本质的区别. C. 基于WEB的OLAM是WEB技术与OLAM技术的结合.

D. OLAM服务器通过用户图形接口接收用户的分析指令,在元数据的指导下,对超级立方体作一定的操作.

33.关于OLAP和OLTP的说法,下列不正确的是: (A) A. OLAP事务量大,但事务内容比较简单且重复率高. B. OLAP的最终数据来源与OLTP不一样. C. OLTP面对的是决策人员和高层管理人员. D. OLTP以应用为核心,是应用驱动的.

34.设X={1,2,3}是频繁项集,则可由X产生(C)个关联规则。 A、4 B、5 C、6 D、7

35.频繁项集、频繁闭项集、最大频繁项集之间的关系是: (C) A、频繁项集 频繁闭项集=最大频繁项集 B、频繁项集=频繁闭项集 最大频繁项集 C、频繁项集 频繁闭项集 最大频繁项集 D、频繁项集=频繁闭项集=最大频繁项集

36.考虑下面的频繁3-项集的集合:{1,2,3},{1,2,4},{1,2,5},{1,3,4},{1,3,5},{2,3,4},{2,3,5},{3,4,5}假定数据集中只有5个项,采用合并策略,由候选产生过程得到4-项集不包含(C) A、1,2,3,4 B、1,2,3,5 C、1,2,4,5 D、1,3,4,5

37.下面选项中t不是s的子序列的是 ( C ) A、s=<{2,4},{3,5,6},{8}> t=<{2},{3,6},{8}> B、s=<{2,4},{3,5,6},{8}> t=<{2},{8}>

C、s=<{1,2},{3,4}> t=<{1},{2}> D、s=<{2,4},{2,4}> t=<{2},{4}>

38.在图集合中发现一组公共子结构,这样的任务称为 ( B ) A、频繁子集挖掘 B、频繁子图挖掘 C、频繁数据项挖掘 D、频繁模式挖掘

39.下列度量不具有反演性的是 (D) A、系数 B、几率

C、Cohen度量 D、兴趣因子

40.下列(A)不是将主观信息加入到模式发现任务中的方法。A、与同一时期其他数据对比 B、可视化

C、基于模板的方法 D、主观兴趣度量

41.下面购物篮能够提取的3-项集的最大数量是多少(C) ID 购买项

1 牛奶,啤酒,尿布 2 面包,黄油,牛奶 3 牛奶,尿布,饼干 4 面包,黄油,饼干 5 啤酒,饼干,尿布

6 牛奶,尿布,面包,黄油 7 面包,黄油,尿布 8 啤酒,尿布

9 牛奶,尿布,面包,黄油 10 啤酒,饼干 A、1 B、2 C、3 D、4

42.以下哪些算法是分类算法?(B) A、DBSCAN B、C4.5 C、K-Means D、EM

43.以下哪些分类方法可以较好地避免样本的不平衡问题?A,KNN B,SVM C,Bayes D,神经网络

44.决策树中不包含以下哪种结点? (C)

A) ( A,根结点(root node)

B,内部结点(internal node) C,外部结点(external node) D,叶结点(leaf node)

45.以下哪项关于决策树的说法是错误的 (C)

A. 冗余属性不会对决策树的准确率造成不利的影响 B. 子树可能在决策树中重复多次

C. 决策树算法对于噪声的干扰非常敏感 D. 寻找最佳决策树是NP完全问题

46.在基于规则的分类器中,依据规则质量的某种度量对规则排序,保证每一个测试记录都是由覆盖它的“最好的”规格来分类,这种方案称为 (B) A. 基于类的排序方案 B. 基于规则的排序方案 C. 基于度量的排序方案 D. 基于规格的排序方案

47.以下哪些算法是基于规则的分类器 (A) A. C4.5 B. KNN

C. Naive Bayes D. ANN

48.如果规则集R中不存在两条规则被同一条记录触发,则称R中的规则为(C); A, 无序规则 B,穷举规则 C,互斥规则 D,有序规则

49.如果对属性值的任一组合,规则集R中都存在一条规则加以覆盖,则称R中的规则为(B) A, 无序规则 B,穷举规则 C,互斥规则 D,有序规则

50.如果规则集中的规则按照优先级降序排列,则称规则集是 (D) A, 无序规则 B,穷举规则 C,互斥规则 D,有序规则

51.如果允许一条记录触发多条分类规则,把每条被触发规则的后件看作是对相应类的一次投票,然后计票确定测试记录的类标号,称为(A) A, 无序规则 B,穷举规则 C,互斥规则 D,有序规则

52.考虑两队之间的足球比赛:队0和队1。假设65%的比赛队0胜出,剩余的比赛队1获胜。队0获胜的比赛中只有30%是在队1的主场,而队1取胜的比赛中75%是主场获胜。如果下一场比赛在队1的主场进行,队1获胜的概率为 (C)

A,0.75 B,0.35 C,0.4678 D,0.5738

53.以下关于人工神经网络(ANN)的描述错误的有 (A) A,神经网络对训练数据中的噪声非常鲁棒 B,可以处理冗余特征

C,训练ANN是一个很耗时的过程

D,至少含有一个隐藏层的多层神经网络

54.通过聚集多个分类器的预测来提高分类准确率的技术称为 (A) A,组合(ensemble) B,聚集(aggregate) C,合并(combination) D,投票(voting)

55.简单地将数据对象集划分成不重叠的子集,使得每个数据对象恰在一个子集中,这种聚类类型称作( B ) A、层次聚类 B、划分聚类 C、非互斥聚类 D、模糊聚类

56.在基本K均值算法里,当邻近度函数采用( A )的时候,合适的质心是簇中各点的中位数。

A、曼哈顿距离

B、平方欧几里德距离 C、余弦距离 D、Bregman散度

57.( C )是一个观测值,它与其他观测值的差别如此之大,以至于怀疑它是由不同的机制产生的。 A、边界点 B、质心 C、离群点 D、核心点

58.BIRCH是一种( B )。 A、分类器 B、聚类算法 C、关联分析算法 D、特征选择算法

59.检测一元正态分布中的离群点,属于异常检测中的基于( A )的离群点检测。 A、统计方法 B、邻近度 C、密度 D、聚类技术

60.( C )将两个簇的邻近度定义为不同簇的所有点对的平均逐对邻近度,它是一种凝聚层次聚类技术。

百度搜索“77cn”或“免费范文网”即可找到本站免费阅读全部范文。收藏本站方便下次阅读,免费范文网,提供经典小说教育文库CDA题库(7)在线全文阅读。

CDA题库(7).doc 将本文的Word文档下载到电脑,方便复制、编辑、收藏和打印 下载失败或者文档不完整,请联系客服人员解决!
本文链接:https://www.77cn.com.cn/wenku/jiaoyu/1069202.html(转载请注明文章来源)
Copyright © 2008-2022 免费范文网 版权所有
声明 :本网站尊重并保护知识产权,根据《信息网络传播权保护条例》,如果我们转载的作品侵犯了您的权利,请在一个月内通知我们,我们会及时删除。
客服QQ: 邮箱:tiandhx2@hotmail.com
苏ICP备16052595号-18
× 注册会员免费下载(下载后可以自由复制和排版)
注册会员下载
全站内容免费自由复制
注册会员下载
全站内容免费自由复制
注:下载文档有可能“只有目录或者内容不全”等情况,请下载之前注意辨别,如果您已付费且无法下载或内容有问题,请联系我们协助你处理。
微信: QQ: