2015-03-22 网易笔试(数据挖掘方向)——邮件事业部
答案正在更新,有想法的也可以留言............
一:单选题
1:下列程序的输出结果为()
#include <iostream.h>
void main()
{
int n[][] = {10,20,30,40,50,60};
int (*p)[3];
p = n;
cout<<[0][0] << "," <<*( p[0] + 1) << "," <<(*p)[2]<<endl;
}
A: 10,30,50
B: 10,20,30
C: 20,40,60
D: 10,30,60
解析: n[2][3] = {
10,20,30,
40,50,60
};
*( p[0] + 1) = p[i][j] (与此类似的形式还有 *( *( p+i ) + j )) 故等于20
(*p)[2]:*p指的是首行 2代表第三列 所以为 30 答案选B
2:存储以下数据,占用字节最多的是()
A: 0
B: '0'
C: " 0 "
D: 0.0
解:int 在不同位数的计算机上表现出的长度不一样,其长度至少为2字节(在16位的计算机上),在32位的计算机上其长度为4字节,64位的计算机上长度为8字节
char 字段字节长度为8
“0”的长度为2 0.0的长度为8
3: 栈和队列共同的特点是
A: 只允许在端点处插入和删除
B: 都是先进后出
C: 都是先进先出
D: 没有共同点
解:栈和队列都是数据结构中的一种,栈是先进后出,其删除和插入数据只能在端点处进行,对列是先进先出型,插入和删除数据也只能在端点处进行,另外一个比较混淆的点是 栈通常用于深度遍历, 而队列用于广度遍历。
4: 任何一颗二叉树的叶节点在前序,中序,后序遍历序列中的相对次序
A: A和B 右方
B: A 和B祖先
C: A 和B左方
D: A 是B子孙
解:这道题题目的意思给的太迷乱了,所以我的理解也不一定正确,我的理解是A和B是两个叶子节点,共有一个父结点,所以无论是前序,中序还是后序遍历中,A总是在B的左边,所以选择C
5:下列关于MapReduce的说法正确的是?
A: MapReduce有多个输入路径时,文件类型必须保持一致
B: 可以使用Counter观察MR Job运行的各种细节数据
C; 使用TextInputFormat时,Mapper的key类型为Text,value类型为LongWritable
D: 以上都正确
解:MapReduce有多个输入路径时不需要保证文件类型一致,可以使用MultipleInouts类来指定多个Mapper函数,只要一个Map函数来处理一种类型的文件即可。
MapReduce Counter为提供我们一个窗口:观察MapReduce job运行期的各种细节数据
使用InputFormat时Mapper的key为LongWritable,表示偏移量,Text表示一行的文本
故选择 B
6:PCA降维中用到的算法是:
A: 牛顿法
B: sgd
C: svd
D: Cutting-Plane
解:牛顿法:迭代算法
sgd:梯度下降算法
svd:推荐算法(Singular Value Decomposition)
Cutting-Plane:列生成算法
其实小编对这几个算法并不大懂,所以具体的还望大神指导,具体答案小编目测是选B
7:
A: 0.59 0.514
B: 1.14 1.02
C: 0.59 1.02
D; 0.514 0.59
解:B
8:请选出用于无监督学习问题的方法
A: SGD
B: 反向传播
C: BFGS
D: 幂迭代
解:D
SGD:梯度下降算法
反向传播:Backpropagation algorithm,简称:BP算法,是一种监督学习算法,常被用来训练多层感知机
BFGS拟牛顿法,详情参考
幂迭代:聚类算法
9:Python中的浅拷贝会创建一个新的对象,但他包含的是对原始对象中包含项的引用,下列哪个操作不涉及浅拷贝
A: copy()
B: list()
C: 完全切片方法
D: 赋值(=)
解:答案选D
推荐一篇便于理解浅拷贝和深拷贝的文章:点击阅读
思路一:利用切片操作和工厂方法list方法拷贝就叫浅拷贝,只是拷贝最外围的对象本身,内部的元素都只是拷贝了一个引用而已。
思路二:利用copy中的deepcopy方法进行拷贝就叫做深拷贝,外围和内部元素都进行了拷贝对象本身,而不是引用。
但是对于数字,字符串和其他原子类型对象等,没有被拷贝的说法,即便是用深拷贝,查看id的话也是一样的,如果对其重新赋值,也只是新创建一个对象,替换掉旧的而已。
10:有一个文件ip.txt ,每行一条ip记录,共若干行,下列哪个命令可以实现统计出现次数最多的前三个ip及其次数
A: uniq -c ip.txt | sort -rn | head -n 3
B: sort ip.txt | uniq -c | sort -rn | head -n 3
C: cat ip.txt | count -n | sort -rn | head -n 3
D: cat ip.txt | sort | uniq -c | sort -rn | top -n 3
解:B linux基本命令具体自行百度
二:多选题
11:ls -l 显示如下 -rwxrw-r-- 1 aaa bbb 0 3月 4 11:21 ccc 下列那些说法是正确的/
A: 该文件是个目录
B: 该文件拥有者所在的组用户有权限修改文件
C: 该文件的权限数字表示为764
D: 该文件的拥有者是bbb
解:BC
12:下列属于线性分类器的是
A: 决策树
B; 带和核函数的SVM
C: logistics回归
D: 感知器
解:BCD
线性分类器:单层感知器网络、贝叶斯 非线性分类器:多层感知器网络、决策树 SVM本身是线性分类器,带核函数之后相当于把低维空间的数据映射到高维空间,之后就可以用线性分类器进行分类了
13: 下列常用的机器学习模型中那些属于生成模型
A: 朴素贝叶斯
B: 隐马尔可夫
C: 感知机
D: 决策树
解:B
朴素贝叶斯和隐马尔可夫是生成模型
感知机,决策树是判别模型
14:下列说法正确的是
A:StringBuilder是线程不安全的
B: java类可以同时用abstract 和 final声明
C: HasnMap中,使用get(key)==null 可以判断这个hashmap是否包含这个key
D: volatike关键字不保证对变量操作的原子性
解:A,C,D
abstract类是抽象类,必须做父类
15:Python中怎样替换一个字符串
A: String模块的sub函数
B: re模块的replace()函数
C: re模块的subn()函数
D: re模块的sub()函数
解:B,C,D
A中string模块meiyousub方法,有replace函数
16:Spark中的RDD的持久化操作,下面说法正确的是?
A: 调用persist()之后不需要主打unpersist()
B: MEMORY_ONLY_SEP模式比MEMORY_ONLY模式快
C: OFF_HEAP模式不需要序列化数据
D: MEMORY_ADD_DISK模式当内存放马不下数据时会将部分数据存储到磁盘中
解:B,C,D
楼主不懂Spark,是百度之后的答案,仅供参考
17:对154个元素组成的有序表进行二分法查找,可能的比较次数为:
A: 10
B: 8
C: 4
D: 1
解:画一个二叉树共八层,所以小于等于8即可 B,C,D
18:有一棵二叉树的前序遍历和后序遍历分别是1,2,3,4和4,3,2,1,则该二叉树的中序遍历可能是
A: 1,2,3,4
B: 2,3,4,1
C: 3,2,4,1
D: 4,3,2,1
解:C,D
19:已知logistic回归分类器的分类阀值是0.5,训练集中正负类比例为3:1,预测性能中正类的precision为0.88 recall为0.81 ,以下那些处理手段可能提高预测结果中正类的recall
A: 降低分类判断的阀值为0.3
B: 训练集中正负类的训练比例调整为6:1
C: 加大logistic回归的正则项的权重值
D: 降低logistic回归的正则项的权重值
解:
20:以下随机变量的概率图模型,那些图是满足p( c,b | a) = p(c | a)p(b |a )
A:
B:
C:
D:
解:A,C(楼主不太懂的路过,,,,,)
三:主观题
低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
hadoop 集群 跨 版本数据迁移
忙着做hadoop 1.x 到 2.x 的数据迁移. hadoop 系统提供 了一个 命令 distcp 可以跨版本 迁移数据. 具体的命令格式: 在新的hadoop 版本上执行 . 两个集群间的所有的主机hosts 文件里要把对方的集群节点的主机名配置上去. 因为是mapreduce 作业,不然会job 失败. 在 hadoop 2.x 上执行 . hadoop distcp hftp://hadoop1.x-namenode:50070/xxxx/xxx/xxx* /path-to-hadoop2.x/xxx/xxx 注意这里用的hftp 协议 ,不是hdfs 协议, hdfs 协议两边不通的. 如果你 hadoop 2.x 是默认安装的 还有个地方需要修改 , 不然会报文件校验 checksum 报错. 无法复制. hadoop 1.x 的文件校验用的crc32 hadoop 2.x 的文件校验用的CRC32C 两个版本的hadoop 的校验方法不同,会报错.无法迁移数据. 在hadoop 2.x hdfs-site.xml 里增加 一个配置. <property&...
- 下一篇
CDH集群调优:内存、Vcores和DRF
吐槽 最近“闲”来无事,通过CM把vcores使用情况调出来看了一眼,发现不论集群中有多少个任务在跑,已分配的VCores始终不会超过120。而集群的可用Vcores是360(15台机器×24虚拟核)。这就相当于CPU资源只用到了1/3,作为一个半强迫症患者绝对不能容忍这样的事情发生。 分析的过程不表,其实很简单就是几个参数的问题。本以为CM能智能的将这些东西配好,现在看来好像不行。以下记录结论。 DRF和相关参数 DRF: Dominant Resource Fairness,根据CPU和内存公平调度资源。CDH动态资源池默认采用的DRF计划策略。简单的理解就是内存不够的时候,多余的CPU就不会分配任务了,就让他空着;CPU不够的时候,多出来的内存也不会再启动任务了。 理解这个计划策略后,再查看Yarn启动任务时资源相关的参数,发现有以下几个参数可能会产生影响: mapreduce.map.memory.mb ,map任务内存,cdh默认1G mapreduce.map.cpu.vcores ,map任务虚拟CPU核数,cdh默认1 mapreduce.reduce.memory.m...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- CentOS7安装Docker,走上虚拟化容器引擎之路
- Docker使用Oracle官方镜像安装(12C,18C,19C)
- CentOS8编译安装MySQL8.0.19
- Docker安装Oracle12C,快速搭建Oracle学习环境
- CentOS7编译安装Gcc9.2.0,解决mysql等软件编译问题
- CentOS6,7,8上安装Nginx,支持https2.0的开启
- CentOS关闭SELinux安全模块
- CentOS7设置SWAP分区,小内存服务器的救世主
- CentOS7编译安装Cmake3.16.3,解决mysql等软件编译问题
- CentOS8安装Docker,最新的服务器搭配容器使用