逸天干货丨Java网络爬虫基础知识

引言

Java网络爬虫具有很好的扩展性可伸缩性,其是目前搜索引擎开发的重要组成部分。例如,著名的网络爬虫工具Nutch便是采用Java开发,该工具以ApacheHadoop数据结构为依托,提供了良好的批处理支持。

Java网络爬虫涉及到Java的很多知识。本篇中将会介绍网络爬虫中需要了解的Java知识以及这些知识主要用于网络爬虫的哪一部分,具体包括以下内容:

Maven的使用;

log4j的使用;

对象的创建;

集合的使用;

正则表达式的使用;

HTTP状态码;

其他。

Maven的使用Maven是什么

Maven是由Apache软件基金会所提供一款工具,用于项目管理及自动构建。我们知道在构建一个Java工程时,需要使用到很多Jar包,例如操作数据库需要使用到mysql-connector-java以及其相关依赖的Jar包。

而Maven工具便可以很方便的对我们在项目中使用到的开源Jar包,进行很好的管理,比如下载某Java工程需要的Jar包及相关依赖Java包。

Maven如何使用

Maven使用项目对象模型(ProjectObjectModel,POM)来配置,项目对象模型存储在名为pom.xml的文件中。以Java为例,我们可以在Eclipse中创建一个Maven工程。其中,MavenDependencies便存放着由Maven管理的Jar包。

正如前面所说,构建一个Java工程需要使用很多Jar包,比如,在Java网络爬虫中,我们需要用到数据库连接、请求网页内容、解析网页内容的相关Jar包时,我们可以在上图所示的pom文件中添加如下语句:

dependencygroupIdmysqlgroupIdartifactIdmysql-connector-javaartifactIdversion5.1.35versiondependencydependencygroupIdorg.jsoupgroupIdartifactIdjsoupartifactIdversion1.8.2versiondependencydependencygroupIdorg.apache.







































白癜风系统检查项目
中科白癜风医院



转载请注明:http://www.zjiaren.com/kfff/10404.html

  • 上一篇文章:
  •   
  • 下一篇文章: