在12月1日“Hadoop生态系统”主题分论坛,Hortonworks member of technical staff戴建勇从充分利用Combiner、构建基于规则的优化器、利用Column Pruner以及使用Push up filter等角度,在分区pruning、压缩中间文件、合并MapReduce作业和控制合并粒度等方面详细演示了如何对Apache Pig的性能进行优化。
使用IBM Watson Studio Local在Hortonworks Data Platform上发现,训练和部署垃圾邮件过滤器模型
该代码模式的目的是演示数据科学家如何利用IBM的Watson Studio Local(以前称为Data Science Experience Local或DSX)利用Hortonworks Data Platform(HDP)的远程Spark集群和计算环境来训练和部署垃圾邮件过滤器模型。本地)。
垃圾邮件过滤器是使用自然语言处理和机器学习算法构建的分类模