服务器开光师是个什么鬼?TalkingData的研发面试题目
TalkingData是一家对数据有信仰的公司,致力于用数据去改变人们做决定的方式,并帮助人们更加了解周围的环境。
4年坚守大数据的前沿阵地,我们遇到无数的挑战。这里我们也向如下有志之士发出邀请,有意者请发简历至wenfeng.xiao@tendcloud.com:
- 大数据工程师/架构师
- Java开发工程师/架构师
- Html5/web前端开发
- iOS/安卓SDK开发
- 机器学习研究员
- DevOps/运维开发
- 程序猿鼓励师
- 服务器开光师
对于这些职位,我们通常有如下的面试题目。
大数据工程师
1. Hadoop集群的namenode上,当meta数据损坏之后如何修复?数据的丢失率是怎样计算?
2. 目前需要对100台服务器做RAID ,有什么方式能够通过自动化的方式实现?
3. 有超过10亿行的数据,每行第一列为唯一ID列,其余列为数值型列,假设数值型列分别为A,B,C,D,请问如何高效的实现一个算法能够完成:
1) 某一列数值符合在某个区间的范围内的记录的条数
2) 某一列数值符合在某个区间同时另一列数值在某个数值区间的记录的条数
4. 某广告主在渠道投放每天有大量点击数据,包含每个点击的IP信息。请基于IP信息设计防止渠道作弊的算法和思路。
5. 一个url文件,每行是一个url地址,可能有重复。
(1)统计每个url的频次,设计函数实现实现。
(2)设有10亿url,平均长度是20,现在机器有8G内存,怎么处理,写出思路。
6. 20个亿整数的两个集合a与b,求a与b的交集,内存为4Gb
7. 在N个无序数中找K个最小值
8. 一个流式输入序列(method_name, latency),其中method_name大约有100万种,latency的取值为1到10亿的正整数,每天的数据量大概100亿条。限制最多 1GB的程序运行内存,设计一种方法,计算一天内每个method_name的50%,95%,99% percentile的latency,误差不超过5%。
Java开发工程师
1. 抽象类和接口有什么区别
2. 请说一下java中的内存回收机制所采用的算法
3. Sleep()和wait()有什么区别?
4. 请列举几种排序算法,并用JAVA实现快速排序算法。
5. 36辆车,6条跑道,无计时器,最少几次比赛可以选出前三
6. 一个未排序的整形序列,比如10,20,3,7,5,9,4,2,90,给出这些数字当中最长连续数的长度,例子中的长度是 4[2,3,4,5]。算法复杂度最好为O(n)
7. 两个线程,一个运行B.m1(),一个运行B.m2(),这个程序可能的行为有哪些?
Class A{ int f; A(){f = 1;} } Class B{ A a; void m1(){a = new A();} void m2(){if(a != null) System.out.println(a.f);} }
8. 在N个无序数中找K个最小值
C++开发工程师
1. new 和 malloc 的区别
2. 用C/C++写一个归并排序。
数据结构为struct Node{int v; Node *next};
接口为 Node * merge_sort(Node *);
3. 一个url文件,每行是一个url地址,可能有重复。
1)统计每个url的频次,设计函数实现实现。
2)设有10亿url,平均长度是20,现在机器有8G内存,怎么处理,写出思路。
4. 进程间的通信方式
5. 20个亿整数的两个集合a与b,求a与b的交集,内存为4Gb
6. 在N个无序数中找K个最小值
机器学习研究员
1. 什么是聚类分析?聚类算法有哪几种?请选择一种详细描述其计算原理和步骤。
2. Pca的概念和处理过程(主成分分析)
3. 中文分词技术简介,常用数据结构和算法
4. 如何建立一个智能问答系统,思路
5. 如何建立一个智能商品推荐系统,思路
Html5/web前端开发
1. 实现输出document对象中所有成员的名称和类型。
2. 写一个去掉数组里的重复成员的程序。比如去掉上面题中刚生成数字序列里面的重复项;
3. 请谈一下HTML和XHTML的区别。
4. 你对Web标准的理解?
5. 浏览器兼容性,谈谈你经常使用的浏览器,和各个浏览器兼容的问题?
6. 页面图片加载太多,一般如何处理?如何合并图片,请写出你的代码?如何延迟和预先加载?
大数据程序猿鼓励师
限女,颜值高,大家都理解,不再赘述:
服务器开光师
对于大数据行业来说,开光师的作用日趋凸显,这就是为什么有的服务器服务超期依然运行稳健,有的新买刚上线就存储故障。根据职能开光师分为软件专攻和硬件专攻,通常必须掌握至少一门宗教开光仪式,自备仪式礼服。因为涉及跨界,此类人才目前稀缺,培养不易。
鉴于目前安全形势日益严峻,TalkingData决定在北京卧佛寺和成都青羊宫新建数据中心做异地容灾,因此掌握多项技能者优先。
本文作者:佚名
来源:51CTO
低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
《私有云计算整合、虚拟化和面向服务的基础设施》一2.2服务器整合驱动
2.2服务器整合驱动 尽管实施服务器整合的因素很多,最根本的两个原因在于:服务器散乱以及应用程序“烟囱林立”而产生的数据孤岛。实施新应用的传统模式是—一台服务器运行一个应用,存储子系统相互隔离采用并行方式部署,从长远来看,因为DC和其相关的组件会随着数据规模的不断增长而无限增加,所以这样的模式存在扩展问题。 2.2.1经典服务器散乱综合症 “服务器散乱”一词是指DC的物理设备所占用的CPU周期、内存、存储等内部系统资源超过了实际所需,并且这些物理设备过度消耗了电能、冷却能量以及设备安置空间的情况。大多数传统工作模式是一个应用运行在一个服务器上。例如,为了满足开发、测试、备份等需求等产生的新应用都需要增加相应的服务器,因此将新的物理服务器增加到现有DC时,都将相应地提高存储、网络以及安全控制的复杂度。 2.2.2应用烟囱和数据孤立 如图2-3
- 下一篇
网络架构之路(三) 单元测试
在带队的过程中,性能的问题还比较好解决,最消极的想法,“好啊,多一事不如少一事,你让我不管还不简单?”,但要求写测试代码,那就炸锅了!以我的经历,“测试驱动”是一个最具争议的话题,没有之一。吹捧者和反对者泾渭分明,而且都有大量的论据和证明。记得博客园曾经有一篇文章,大意是:“公司付钱给你不是让你写测试代码的”,下面一片狂赞。 在我自己的项目开始的时候,我是放弃了测试驱动的,里面总结得很准确,最大的原因是“懒”。但最后让我下定决心开始“测试驱动”实践的,是我一次花了两天一夜都没调出一个Bug,垂头丧气筋疲力尽之后,无可奈何的接受了这个现实:测试还是很有用的——即使是自己写的代码。我之前的系列博客,也已经反复的强调,架构是一种“无奈”,是现实是问题驱使你去做一些其实你本来不想做的事情。你无法理解一些看起来像“脱了裤子放屁”一样的行为,通常只是因为你没有遭遇过那些现实那些问题。(看看,大学能教你这些东西么?) 即使你没有多少开发经验,你也应该能够想象,单元测试最大的问题,就是它需要花时间花精力去写,那么这个花费是否值得呢?这还是由你架构的目标决定的,或者你的需求决定的。如果系统是一次成型交付...
相关文章
文章评论
共有0条评论来说两句吧...