如今采集数据的方法发展的已经比较成熟了,对于常用的网站和结构化的网站,可以使用数据采集软件进行数据采集。优点是不用写代码,基本不需要HTML知识,可视化操作,方便直观。缺点是不够灵活,但对于基本的需求已经够用了。
这里主要介绍中国公司开发的数据采集软件,其实都大同小异,我主要用过:火车头采集器、后羿采集器 和 webscraper浏览器插件
这些软件大部分包含免费和付费功能。一般免费就够用。
有一个思路我认为是比较正确的,就是对于常用网站,前人已经写好了很多爬虫框架,拿来用就可以。比如 gooseeker集搜客 和 webscraper浏览器插件 的网站上,就有很多现成的写好的。
对于一些比较特殊的数据,比如高德地图上商家的数据,我还遇到过不同地图坐标系不一样还要转换的问题。还有很多反爬策略等等。这些相对困难一些 ,有专门的公司和专门的软件在做,不在这些“傻瓜”软件的使用范围之内。
名称 | 网址 | 简介 |
八爪鱼采集器 | https://www.bazhuayu.com/ | |
火车头采集器 | http://www.locoy.com/ | |
神采 | http://www.sensite.cn/ | |
探码Web大数据采集系统 | http://www.tanmer.com/web-bigdata | |
后裔采集器 | http://www.houyicaiji.com/ | |
爬山虎采集器 | http://www.51pashanhu.com/ | |
ForeSpider前嗅 | http://forenose.com/download.html | |
gooseeker集搜客 | http://www.gooseeker.com/ | |
发源地 | http://www.finndy.com/ | |
神箭手云爬虫 | https://www.shenjian.io/ | |
小草莓-全网采集助手 | http://www.caomeixiao.com/ | |
WebMagic | http://webmagic.io/ | 一个简单灵活的Java爬虫框架 |
DenseSpider | https://studygolang.com/p/DenseSpider | Go语言实现的高性能爬虫 |
scrapinghub | https://www.scrapinghub.com/ | |
prasehub | https://www.parsehub.com/ | |
Octoparse | https://www.octoparse.com/ | 国外软件 |
webscraper浏览器插件 | http://www.iwebscraper.com/ |