互联网时代的社会语言学：基于SNS的文本数据挖掘作为中文系应用语言学专业的学生以及一名数学Geek，

文件名称: 互联网时代的社会语言学：基于SNS的文本数据挖掘

所属分类: 其它

开发工具:

文件大小: 245kb

下载次数: 0

上传时间: 2021-03-02

提供者: weixin_********

下载 (245kb)

不能下载？报告错误

详细说明：作为中文系应用语言学专业的学生以及一名数学Geek，我非常热衷于用计算的方法去分析汉语资料。汉语是一种独特而神奇的语言。对汉语资料进行自然语言处理时，我们会遇到很多其他语言不会有的困难，比如分词——汉语的词与词之间没有空格，那计算机怎么才知道，“已结婚的和尚未结婚的青年都要实行计划生育”究竟说的是“已／结婚／的／和／尚未／结婚／的／青年”，还是“已／结婚／的／和尚／未／结婚／的／青年”呢？这就是所谓的分词歧义难题。不过，现在很多语言模型已经能比较漂亮地解决这一问题了。但在中文分词领域里，还有一个比分词歧义更令人头疼的东西——未登录词。中文没有首字母大写，专名号也被取消了，这叫计算机如何辨认人名

(系统自动生成,下载前可以参看下载内容)