WebCollector:二次开发的JAVA爬虫框架(内核)

WebCollector是一个无须配置、便于二次开发的JAVA爬虫框架(内核),它提供精简的的API,只需少量代码即可实现一个功能强大的爬虫。

相关的项目 - 更多比较

383 6.7k 1.6k

J jsoup 是一个用于解析HTML的Java 类库。它提供了一套非常方便快捷的API,通过DOM、CSS以及类似于jQuery的操作方法来取出和操作数据。
 
10.0 3.5
  24天前
Popular
304 3.3k 1.7k

C crawler4j是Java实现的开源网络爬虫。提供了简单易用的接口,可以在几分钟内创建一个多线程网络爬虫。
 
10.0 9.0
  昨天
115 796 436

G Gather Platform 数据抓取平台是一套基于Webmagic内核的,具有Web任务配置和任务管理界面的数据采集与搜索平台.
 
2.7 0.0
  1年前