1、负责爬虫系统的设计与开发,开发爬虫搜索引擎,核心工作是编写对应ja va代码或python脚本;
2、负责网页信息和APP数据抽取、清洗、消重等工作,提升平台的抓取效率;
3、实时监控爬虫进度和预警处理;
4、与产品部门和上级沟通确保数据的准确性及时性。
1、1年以上爬虫相关经验,具备分布式爬虫经验;
2、熟悉ja va、python的爬虫框架;
3、熟练掌握 html、css、xpath、正则表达式、scrapy、selenium、pandas;
4、深入了解 HTTP,TCP/IP 网络协议;
5、熟悉常见的反爬策略,有一定的研究和解决问题的能力。