这几天有在用simple_html_dom抓一些文章。不同网站的编码在国内基本上是gbk gb2312 utf-8。而以gb2312和utf-8居多。
我这一版的simple_html_dom有一个方法 convert_text 是这个样子的。
复制代码 代码如下: // PaperG – Function to convert the text from one character set to another if the two sets are not the same. functio