起初,由于工作需要,需要对大量技术文章进行分类并用一两句话描述关键内容,做成类似简报之类的报告给领导看,但是材料又多又长,不可能一篇篇去读,怎么办呢?
最先想到的办法,就是抽取关键词,简单易行,就是后期需要自己梳理成句,当然还是需要浏览一遍文章,不过至少有的放矢了
1、第一版:获取TFIDF最高的n个词汇,作为关键词提取;
from sklearn.feature_extraction.text import CountVectorizer,TfidfTransformer
countVecto