Skip to content

Latest commit

 

History

History
88 lines (45 loc) · 2.33 KB

1.md

File metadata and controls

88 lines (45 loc) · 2.33 KB

唯品会Java金融爬虫实习面经(通过)

一面

一面是部门老大面试

  1. 自我介绍

  2. 看过什么书籍

《Think in Java》 《深入理解Java虚拟机》 《Java并发编程实战》 《大型互联网技术架构》等

  1. 学校教过什么课程

照实回答

  1. Jvm虚拟机这本书是全啃完了吗

没有,跳着看

  1. 说说在爬虫中遇到哪些反爬

同一ip请求频繁会验证码反爬,通过接入第三方识别服务解决

  1. 怎么把验证码发送到识别接口

主要是问如何定位该验证码,每一个验证码在Cookie中都有一个对应的序列号,post验证码识别后带上这个序列号就行了

  1. Python爬虫与Java爬虫那个好

Python,Python比Java更加短小精悍,现成的库更丰富

  1. 用什么数据库,知不知道数据库索引和查询优化

MySQL,了解数据库索引原理,没了解过查询优化。然后没有继续问了

  1. Linux上的部署

  2. 后面就是实习天数和时长了

二面

二面也是技术面,是个年轻的逗逼小哥哥,主要是根据简历里的项目和用过的技术提问

  1. 打不打篮球(!-.-)听到这问题没反应过来

  2. 说说模拟登录的流程

说了模拟正方教务系统的登录流程

  1. WebSocket是短连接还是长连接

说了长连接,最后发现好像不太对

  1. 短连接跟长连接有什么区别

长连接hold住同一tcp连接不断开,继续用这条通道传数据

  1. Spring如何实现懒加载

知道这方式,但忘记了。

xml方式: lazy-init="true" 注解: bean上加上@Lazy @AutoWire注入时使用beanFactory

  1. Redis设置过期的参数是什么

没记过..最后问我过期的英文单词是啥,答:expired

  1. 用什么数据库,基本的查询操作

MySQL,照答

  1. WebMagic模仿了Python哪个框架

Scrapy,忘记单词了,我说是S开头的框架,算我过。。。

  1. 使用Redis做过什么

存session,做token鉴权的存储层

  1. 自己实现过的IP代理池原理

爬取免费IP,存入临时阻塞队列(说到阻塞队列就说够了,可能觉得我会就不用继续说)再针对要爬取的网站验证IP可用性,存入正式阻塞队列

最后小哥说留下我的简历~nice!

一开始准备了很久,以为会问我java容器,并发包,虚拟机的东西,发现都没有~