所谓网络爬虫,通俗的讲,就是通过向我们需要的URL发出http请求,获取该URL对应的http报文主体内容,之后提取该报文主体中我们所需要的信息。
下面是一个简单的爬虫程序
http基本知识
当我们通过浏览器访问指定的URL时,需要遵守http协议。本节将介绍一些关于http的基础知识。
http基本流程
我们打开一个网页的过程,就是一次http请求的过程。这个过程中,我们自己的主机充当着客户机的作用,而充当客户端的是浏览器。我们输入的URL对应着网络中某台服务器上面的资源,服务器接收到客户端发