您好,欢迎光临本网站![请登录][注册会员]  

搜索资源列表

  1. 倒排索引与布尔查询

  2. 对所给的Tweets数据集建立倒排索引; 实现Boolean Retrieval Model,使用TREC 2014 test topics进行测试; Boolean Retrieval Model中支持and, or ,not,查询优化可选做;
  3. 所属分类:专业指导

    • 发布日期:2019-10-07
    • 文件大小:7340032
    • 提供者:weixin_43943977
  1. Stock Market Tweet | Sentiment Analysis lexicon(股市推文| 情感分析词典)-数据集

  2. Tweets were collectect between April 9 and July 16, 2020 using not only the SPX500 tag but also the top 25 companies in the index and "#stocks". Cite - Taborda, Bruno; de Almeida, Ana ; Carlos Dias, José; Batista, Fernando; Ribeiro, Ricardo (2020), “
  3. 所属分类:其它

    • 发布日期:2021-03-18
    • 文件大小:59768832
    • 提供者:weixin_38716423
  1. Tweets during Real Madrid vs Liverpool-数据集

  2. 数据集包含在2018年欧洲冠军联赛决赛中在皇家马德里和利物浦之间捕获的推文。 Tweets during Real Madrid vs Liverpool_datasets.txt Tweets during Real Madrid vs Liverpool_datasets.zip
  3. 所属分类:其它

    • 发布日期:2021-03-18
    • 文件大小:227540992
    • 提供者:weixin_38721405
  1. Tweets during Nintendo E3 2018 Conference 任天堂E3 2018大会期间的推文-数据集

  2. 包含在任天堂E3 2018大会期间捕获的推文的数据集 NintendoTweets.json
  3. 所属分类:其它

    • 发布日期:2021-03-15
    • 文件大小:60817408
    • 提供者:weixin_38613548
  1. Tweets-数据集

  2. tweets twitter.csv
  3. 所属分类:其它

    • 发布日期:2021-03-14
    • 文件大小:84934656
    • 提供者:weixin_38612568
  1. COVID-19WordEmbeddings:COVID-19阿拉伯语词嵌入是COVID-19 Tweets的特定于领域的预训练分布式词表示,旨在为阿拉伯语NLP研究社区提供免费使用和功能强大的词嵌入模型-源码

  2. COVID-19阿拉伯文字嵌入 我们利用从2020年1月到2020年4月的收集的整个COVID-19数据集构建了单词向量模型。 通过删除转发和重复的推文,我们最终获得了2,821,940条推文。 我们考虑两种值得注意的词嵌入生成方法:word2vec和FastText。 使用这些特定于域的预训练词嵌入模型(COVID-19)将比在AI任务中使用其他通用的预训练词嵌入模型更为准确。 引文 如果您想使用我们的预训练模型,请使用以下bibtext引用此工作: article{alqurashi202
  3. 所属分类:其它

    • 发布日期:2021-03-14
    • 文件大小:2048
    • 提供者:weixin_42131439
  1. harley_the_bot:伯特驱动的机器人可以帮助您识别用户-源码

  2. 由bert驱动的机器人可以帮助您识别用户。 概述 该项目的目标是确定使用“ SunXiaoChuan”模式发布消息的用户。 背景 2019年11月,一波名为``孙小川258''的巨魔军队到达了Twitter中国用户。 他们来自哪里,他们的组织方式和背景是未知的。 但是,它们具有非常相似的语言行为。 这是学习如何将NLP与深度学习结合使用以识别它们的绝好机会。 训练数据集 来自“孙晓川”及其关注者网络的20,000条推文。 来自普通Twitter用户的20,000条推文。 搜寻器脚本是tools
  3. 所属分类:其它

    • 发布日期:2021-03-13
    • 文件大小:197632
    • 提供者:weixin_42109125
  1. COVID19 Tweets(COVID19推文)-数据集

  2. These tweets are collected using Twitter API and a Python scr ipt. The tweets have #covid19 hashtag. Collection started on 25/7/2020, with an initial 17k batch and will continue on a daily basis. 这些推文是使用Twitter API和Python脚本收集的。这些推文带有#covid19标签。收集于202
  3. 所属分类:其它

    • 发布日期:2021-03-12
    • 文件大小:28311552
    • 提供者:weixin_38623249
  1. Twitter US Airline Sentiment Twitter 美国航空情绪-数据集

  2. 分析2015年2月旅行者在Twitter上的感受 Tweets.csv Twitter US Airline Sentiment Twitter_datasets.txt
  3. 所属分类:其它

    • 发布日期:2021-03-12
    • 文件大小:1048576
    • 提供者:weixin_38731979
  1. Aviation-tweets-sentiment-analysis:此情绪在Twitter上执行,以确定对美国航空的总体意见。 公司和品牌通常使用情感分析来跨社交媒体平台或整个网络监控品牌声誉。 数据科学机器学习在航空工业中的应用-源码

  2. 关于美国航空的推文的情感分析 这个项目是我使用Streamlit开发的机器学习和数据驱动的Web应用程序之一。 该项目的目标是形象化各种推特情绪,并确定对美国航空的总体看法。 公司和品牌通常使用情感分析来跨社交媒体平台或整个网络监控品牌声誉。 数据科学/机器学习在航空业解决问题中的应用。 关于数据集 该数据集是在2015年2月从Twitter上抓取的,首先要求参与者对正面,负面和中性推文进行分类,然后对负面原因进行分类(例如“后期飞行”或“粗鲁的服务”)。 有关数据集的更多详细信息,请参见 参考
  3. 所属分类:其它

    • 发布日期:2021-03-06
    • 文件大小:1048576
    • 提供者:weixin_42157188
  1. GloVe:用于分布式单词表示的GloVe模型-源码

  2. GloVe:单词表示的全局向量 的最近邻居青蛙 利里亚 act科 拉那 萤火虫 图片 比较 男人->女人 城市->拉链 比较->最高级 手套几何 我们提供用于学习单词表示的GloVe模型的实现,并描述如何下载Web数据集向量或训练您自己的向量。 有关手套矢量的更多信息,请参见或。 下载预训练的单词向量 下面的链接包含从各个语料库获得的词向量。 如果您想在庞大的Web数据集上训练单词向量,则只需下载这些文本文件之一! 预训练的单词向量在。 常见抓取(42B令牌,1.9M v
  3. 所属分类:其它

    • 发布日期:2021-02-21
    • 文件大小:109568
    • 提供者:weixin_42131013
  1. xtreme-multilabel-tweets:10,000个用户的推文分类-源码

  2. xtreme-multilabel-tweets 10,000个用户的推文分类 数据集可以从https://www.dropbox.com/s/kn2dmuczse0ysek/train_tweets.txt.zip?dl=0下载 使用Facebook的fasttext库对10,000个用户的BERT编码推文进行分类。 像大多数极端的多类/标签分类问题一样,数据集的分布严重偏斜,最终的验证准确性很低(16.33%)。
  3. 所属分类:其它

    • 发布日期:2021-02-17
    • 文件大小:49152
    • 提供者:weixin_42153691
  1. Twitter_争吵-源码

  2. Twitter_争吵 我对Twitter存档进行了增强的第一个数据集进行了评估,发现以下质量问题: •Tweet_id类型为int,应为字符串 •删除非原始的推文(转发) •将时间戳数据类型从字符串更改为日期时间类型 •为狗创建专栏 •修复expanded_urls中缺少的值 对于第二个数据集,我们有一个图像projections.tsv,在对其进行评估之后,我发现了以下问题: •jpg_url列中的URL重复 •Tweet_id数据类型不正确,应为字符串 •请注意p1,p2和p3列中的一
  3. 所属分类:其它

    • 发布日期:2021-02-16
    • 文件大小:892928
    • 提供者:weixin_42131633
  1. 词:Twitter词频分析-源码

  2. 剑 快速的Twitter数据集创建和Twitter词频分析 总览 Twords是一个Python类,用于收集推文并在Jupyter笔记本中调查其词频。 Twords使用Jefferson Henrique的Java版本的GetOldTweets(可下载)下载tweets,通过直接查询Twitter网站来克服Twitter API的局限性。 收集速度约为每分钟3000条推文,这意味着可以在大约6个小时内收集100万条推文数据集。 一旦收集了推文,就可以使用Twords将推文加载到熊猫数据框中,清
  3. 所属分类:其它

    • 发布日期:2021-02-06
    • 文件大小:34603008
    • 提供者:weixin_42131601
  1. Twitter情感分析:with神经网络情感分析-源码

  2. 两个没有ML知识的家伙开始创建一个神经网络来进行Twitter情绪分析。 :D 如何使用: 将情感分析数据集提取到“ full_data”(或任何您想要的数据) 运行“ python3 split_data.py full_data 1000”,将训练数据分成随机的1000条不良tweets和1000条良好tweets。 运行'python3 ffn_twitter.py'。 当前,您必须对文件名进行硬编码。
  3. 所属分类:其它

    • 发布日期:2021-02-06
    • 文件大小:58720256
    • 提供者:weixin_42112658
  1. twitter-turing-test:一种游戏,您需要猜测一条推文是来自人类的,还是来自经过某类推文训练的神经网络语言模型-源码

  2. Twitter图灵测试 一个游戏,您需要猜测一条推文是来自人类的,还是来自经过某类推文训练的神经网络语言模型。 总览 该项目使用以下开源项目来开发我们的模型: 用于从一组用户名中抓取Twitter数据。 对于某些较大的数据集, 用作代理池,以避免Twitter的IP黑名单。 ,可根据其他数据微调模型。 将模型部署到以获得实时HTTP端点。 前端React应用程序是静态推文和Model Zoo HTTP端点的数据集的包装。 有关更多详细信息,请参见。 如何训练和部署自己的语言模型 准备数据
  3. 所属分类:其它

    • 发布日期:2021-02-06
    • 文件大小:27262976
    • 提供者:weixin_42114041
  1. 高级项目推文:没有任何推文是安全的-源码

  2. 高级项目 诺亚·西格尔·古尔德(Noah Segal-Gould)于2018年5月从巴德学院获得计算机科学和实验人文学位的高级项目 警告:Twitter更改了其API,并且该项目当前离线。 我将来可能会更新它。 目标: 在Twitter上获取并标识“ subtweets”。 进度(完成): 根据对tweets的答复中是否存在“ subtweet”,下载subtweets和非subtweets 使用户名,URL和标签的提及变得通用(例如“ #woohoo”->“ HASHTAG”)
  3. 所属分类:其它

    • 发布日期:2021-02-04
    • 文件大小:117440512
    • 提供者:weixin_42120541
  1. accs-cassandra-twitter-timeseries-app:在Oracle Data Hub Cloud上使用Cassandra使用Twitter数据的简单时间序列应用程序-源码

  2. 在上基于基于Twitter数据和Cassandra的时间序列示例应用程序 整体解决方案非常简单 Tweet Producer是一个Java应用程序,它使用Twitter流API来使用tweet,并将其推送到Data Hub上的Cassandra集群 这是一个Java应用程序,并使用twitter4j库来使用tweet流 应用用户定义的过滤条件/术语以从流中过滤相关推文 将推文数据异步推送到Cassandra 它提供了一个REST API来按需启动/停止应用程序,例如/ tweets / pr
  3. 所属分类:其它

    • 发布日期:2021-02-03
    • 文件大小:24576
    • 提供者:weixin_42098759
  1. spark-streaming-twitter:构建管道以使用Spark和Mongodb处理实时数据-源码

  2. 火花流推特 构建管道以使用Spark和Mongodb处理实时数据。 Twitter实时数据使用API​​提取,然后使用Apache-Spark处理。 “ tweepy” API从Twitter中提取数据,该数据存储为JSON对象。 该JSON对象包含tweet,用户详细信息,re-tweets,tweets的ip地址,地理坐标等。但是对于我们的处理,我们仅考虑实际的tweet(由用户发布或转发),以及时间戳它被创造了。 然后,此数据在MongoDb中暂存,并在运行时完成一些处理。 数据流过程:
  3. 所属分类:其它

    • 发布日期:2021-02-03
    • 文件大小:143360
    • 提供者:weixin_42118011
  1. issue_engagement_2017:论文``使用社交媒体数据分析2017年德国联邦大选期间的议题参与度''的数据和代码-源码

  2. 发行参与度2017 论文``使用社交媒体数据分析2017年德国联邦大选期间的议题参与度''的数据和代码 可以在数据文件夹中找到数据集(推特ID和参加者的隶属关系)。 这些ID可用于从Twitter获取推文文本,包括RT和提及。 该代码将数据集称为data.frame tweets.user.table。
  3. 所属分类:其它

    • 发布日期:2021-03-31
    • 文件大小:3145728
    • 提供者:weixin_42099070
« 12 »