泰坦尼克号-从灾难中学习机器
创建于2020年3月。
预测泰坦尼克号的生存时间,并熟悉ML基础知识
参考:
任务:
EDA(探索性数据分析)
a. check basic info of dataset
b. Data Visualization
数据处理
a. deal with missing value
b. Transforms categorical features to vectors
适合不同型号
a. Random Forest
b. XGBoost
预测ka
Odoh-go
该库实现了草稿-04。 它基于的原始实现。
测试向量生成
要生成测试向量,请运行:
$ ODOH_TEST_VECTORS_OUT=test-vectors.json go test -v -run TestVectorGenerate
要检查测试向量,请运行:
$ ODOH_TEST_VECTORS_IN=test-vectors.json go test -v -run TestVectorVerify
LOIT-很多印度推文
安装
pip install loit
用法
import loit
# download data
# hindi and telugu are available as of now
loit.download('hindi', 'data')
# download fasttext cbow vectors and read them
loit.load_vectors('hindi', 'cbow')
# download fasttext skipgram v
Doc2Vec文本分类
文本分类模型,该模型使用gensim Doc2Vec生成段落嵌入,并使用scikit-learn Logistic回归进行分类。
数据集
25,000个IMDB电影评论,特别选择用于情感分析。 评论的情绪是二进制的(1表示肯定,0表示否定)。
与以下出版物相关联地收集了此源数据集:
Andrew L. Maas, Raymond E. Daly, Peter T. Pham, Dan Huang, Andrew Y. Ng, and Christopher Pott
字形:用于汉字表示的字形向量
Glyce是一个基于PyTorch的开源工具包,由开发。
引文
出现在NeurIPS 2019中。
(孟梦娴*,吴伟*,王飞*,李小亚*,聂平,范茵,李牧雨,韩庆红,孙晓飞和李继伟,2019)
article{meng2019glyce,
title={Glyce: Glyph-vectors for Chinese Character Representations},
author={Meng, Yuxian and Wu, Wei and Wang,