多测师-多培养一些优秀的测试工程师
网站地图 |   收藏本站   |   

13825291265

数据分析之使用爬虫获取数据

发布日期:2021-12-31 09:25:37 作者:多测师 浏览次数:

  要对数据进行分析和使用,首先要获取数据。可以通过调用第三方开源或者付费的接口获取,也可以自己爬取。爬虫是获取数据的重要方式之一,常见的爬虫有两类,离线爬虫和实时爬虫。

  离线爬虫是指根据条件直接将线上数据爬取之后保存在数据库中,待使用方需要时直接从库里提供数据的爬虫。离线爬虫的数据量较大,适用于数据相对稳定并且使用范围较广的情况,不需要实时爬取,根据需要配置定时任务爬取并更新数据即可。这种爬虫常见于爬取房源、车源等数据。提供数据的方式一般是通过接口提供,请求参数中带查询条件即可,或者不需要请求参数直接返回所有数据。

数据分析之使用爬虫获取数据

  实时爬虫是有请求触发后再去爬取的爬虫,实时爬虫根据是否需要授权又分授权爬虫和非授权爬虫。授权爬虫是指需要登录才可以获取的,如运营商数据、网银账单、淘宝记录等。授权爬虫的数据采集和解析对风控有非常重要的作用。这种爬虫需要谨慎处理。授权爬虫需要关注数据的解析、入库和计算,并且测试范围尽可能覆盖较多场景。授权爬虫的要求较高,技术难度较大,目前市面上有很多授权爬虫产品服务。

  非授权爬虫是不需要登录但是需要其它请求条件的爬虫,适用于数据使用范围较窄、实时性要求高的情况,比如舆情爬虫,需要查找某关键字时再进行实时爬取。

如需了解更多测试技术信息请关注:https://www.duoceshi.cn/jswz/深圳多测师软件与技术服务有限公司


查看更多 >>

推荐阅读