“百度百科六度分隔理论”(简单版)
相信大家都听说过“维基百科六度分隔理论”,本文在此只研究该理论的前期过程,即构建一个从一个页面到另一个页面的爬虫。本文选用百度百科的金融词条进行测验。
前期准备
解决url乱码问题:百度百科的url显示出来会出现乱码,以下为解决办法。
#https://baike.baidu.com/item/金融/860
from urllib.parse import unquote\nurl='https://baike.baidu.com/item/金融/860'
d