Python获取前程无忧的职位信息
今天用Python写了一个小脚本可以获取前程无忧(https://www.51job.com/)的职位信息,包括职位,公司,薪资等。
主要应用requests库和正则表达式。
这个网站需要解码,这是一个坑,要不然很容易造成提取信息失败。在阿里云大学学了一招。 这个解码的代码段算是万能解码了,在提取不需要解码的网站源码信息时,把这段代码写进去也是没有问题的,在提取需要解码的网站源码信息时,把这段代码放进去就可以解码了。
data = bytes(txt.text