转载学长20 21的真题
转载链接
注:每年的课件可能会有更改,内容不一样,所以读者复习的时候以所在年份的课件为准
2020
2021
笔者2023秋
2023
都是大题,没有选择题。
- 改进的近似算法中,结合具体的例子说明,“多次运行取平均”和"多次运行取中间值"的两个思想是怎么体现的。(10分)
- 为什么要在哈希分片的过程中引入虚拟桶,虚拟桶工作的流程。(6分)
- 一共两个问,卷子前面会给期望和方差的公式以及切比雪夫和切尔诺夫不等式(10分)
- 简要说明Morris算法的主要思想
- 最后估算的结果是f̃i, 期望是fi,方差是fi的平方,分析估算的误差
- B+树,键值最多是3, 给下面的表,回答三个问题(15分)
- 请从不同的节点说明为什么指针的个数要比键值的个数多1
- 将<1,2,3,4,5,8>组成一个合理的B+树
- 在上一问的B+树插入6,7画出每一次插入二叉树的状态
5. 课件上的哈希查找算法,请你给出一个具体的例子并说明这个算法(看课件上的就行)(12分)
- 一共两个问 主要是文件系统和数据的复制(10分)
- gfs采用主从式数据库和其他方法的优缺点,请举出一个其他的结构并和主从式相对比写出他们的优缺点。
- HDFS namenode、datanode、secondary namenode一起协同的工作流程
- 给三个例子,一大堆话,问是属于什么什么资源调度模型,我当时写的下面这个。(20分)
第一个是单机模型 第二个是spark的executer 第三个是google borgmaster和scheduler
- 输入是<编号,黑色或者白色> 每个机器能看到数据的个数为L,机器的个数是k,解决一个问题:黑色的数目多还是白色的数目多,利用mapreduce的编程思想回答下列问题。(15分)
- 写出map和reduce的伪代码
- 分析通信代价和空间代价
- 在此基础上的算法上进行改进,对任意位置上的x 原来的数据A[1到x]黑的个数不小于白色的个数,请设计算法并简要说明他的正确性。
总结:显敏老师的算法一定上课跟着算,要不然考试真的会吃亏,王老师上课讲的比较浅的东西一定要下课多查资料学习,没展开也不一定不需要掌握。
我的笔记
因为时间匆忙,有些东西不是很全,仅供参考。
大数据计算基础笔记