在Pig中reduce与存储函数之间的关系

我刚刚阅读了这篇关于Twitter上大规模机器学习的论文。

在论文中，他们提到了一张图表，显示每个reduce都有自己的存储函数（见论文第5页的图1）。

他们还提到了以下代码（我做了简化，但基本相同）：

training = load `/tables/statuses/$DATE' using TweetLoader() as (id: long, uid: long, text: chararray);training = foreach training generate $0 as label, $1 as text, RANDOM() as random;training = order training by random parallel $PARTITIONS;training = foreach training generate label, text;store training into `$OUTPUT' using TextLRClassifierBuilder();

据我理解，parallel $PARTITIONS会触发Pig创建两个reducer，但我没有理解它与存储函数之间的关系。如果我将$PARTITIONS设置为2，每个存储模型的名称会是什么？假设我想让每个存储函数获得50%的训练数据，我该怎么做？所有的训练数据都在内存中吗？有没有办法让reduce获得50%的训练数据？

回答：

正如你提到的，PARALLEL控制reducer的数量。在Hadoop框架中，每个reducer会生成自己的输出文件（在使用MultipleOutputs的情况下会生成多个输出文件）。

每个输出文件通常命名为part-r-00000或part-r-00372，其中的数字表示由哪个reducer生成。如果你有100个reducer，你将得到文件part-r-00000、part-r-00001、…、part-r-00099。

学技术

在Pig中reduce与存储函数之间的关系

发表回复取消回复

相关文章：

Related Posts

使用LSTM在Python中预测未来值

如何在gensim的word2vec模型中查找双词组的相似性

dask_xgboost.predict 可以工作但无法显示 – 数据必须是一维的

ML Tuning – Cross Validation in Spark

如何在React JS中使用fetch从REST API获取预测

如何分析ML.NET中多类分类预测得分数组？

发表回复 取消回复

发表回复取消回复