Web爬虫 - 用于分析网站内容的Java类库。

按热度排序
383 6.7k 1.6k

J jsoup 是一个用于解析HTML的Java 类库。它提供了一套非常方便快捷的API,通过DOM、CSS以及类似于jQuery的操作方法来取出和操作数据。
 
10.0 3.5
  24天前
Popular
304 3.3k 1.7k

C crawler4j是Java实现的开源网络爬虫。提供了简单易用的接口,可以在几分钟内创建一个多线程网络爬虫。
 
115 796 436

G Gather Platform 数据抓取平台是一套基于Webmagic内核的,具有Web任务配置和任务管理界面的数据采集与搜索平台.
 
2.7 0.0
11 255 61

J jerryWebSpider是一个java爬虫实例集合,基于springboot构建,目前内含对tuwan网妹子图的爬虫。
 
2.2 1.7000000000000002
  12天前
38 363 110

P ProxyPool可以供给网络爬虫使用,ProxyPool由Spring Boot+RxJava2.x+MongoDB搭建
 
1.3 0.8
  19天前
31 290 113

M An object-oriented crawler framework(面向对象的爬虫框架)
 
1.1 0.0
9 146 20

Porn Bot:Pornhub-下载器/爬虫
 
0.8999999999999999 0.5
25 212 103

M 基于webmagic + springboot + mybatis的Java爬虫,使用Echarts进行数据可视化分析,提供了从爬虫获取数据到数据持久化、数据可视化分析以及构建简单的代理池等一整套解决方案模板。
 
0.8 0.0
  1年前
203 1.8k 643

W webporter 是一个基于垂直爬虫框架 webmagic 的 Java 爬虫应用,旨在提供一套完整的数据爬取,持久化存储和可视化展示的实践样例。
 
0.6 0.0
23 191 36

W webBee 🐝基于jdk8 是一个持续成长的垂直爬虫框架项目
 
0.6 0.0
39 155 111

Y YayCrawler 基于规则配置的通用分布式爬虫框架
 
0.5 0.0
  1年前
18 148 38

J 这是一个强大,但又轻量级的分布式爬虫框架。jlitespider天生具有分布式的特点,各个worker之间需要通过一个或者多个消息队列来连接。消息队列我的选择是rabbitmq。
 
0.5 0.0
  1年前