预测作者数
研究人员小组的写作质量,篇幅或风格是否与个人研究人员的写作方式不同? 我希望能够帮助研究人员在单击“提交”按钮之前对那里的论文有更多的了解。 这就是我问自己进入抓取pdf文件的问题。 配备了41000个链接和一个VPN后,我的计算机以2小时(其中我切换了IP)以3个小时为增量向arxiv.org发出了呼叫。 我着手将PDF文件转换为文本,成功率约为50%,清洗后剩下14,066,其中包括切断底部确认,删除转义词和使用TFIDFVectorizer。 我的模型试图确定是否有人写了这篇论