苦想了几天,终于弄明白了里面的道理。在这里写出来,请高手指正。 采集程序的思路很简单,无非就是先打一个页面,一般都是列表页,取得里面全部链接的地址,然后打开逐条链接,寻找我们感兴趣的东西,如果找到,就把它入库或别的处理。下面以一个很简单的例子来说说。 首先确定一个采集页,一般就是列表面了。这里目标是:https://www.jb51.net/article/11/index.htm。这是一个列表页,我们的目的就是采集这个列表页上全部的文章。 有列表页了,第一步先打开它,把它的内容纳入到我们的程序