python使用selenium和tesseract来获取电影评分总目录工具需求爬取原理安装第三方库上代码结果图写在最后
总目录
使用python来爬取网页信息经常遇到反爬,对于一些加密的信息更是难搞,下载.woff之类的文件再解码对于菜鸡来说有点难,而且代码量太大。
相对而言使用OCR(文字识别)比较方便,个人感觉不好的就是需要把图片给截取下来有点占地方,所以如果只是截取少量的话这个还是很不错的。
工具需求
python3.7
tesseract
chromedriver
第三方库:
sele