从网上的各种来源了解到,Storm具备一些机器学习能力(例如通过Samoa),但它是否总是用于在线学习?附带问题:如果我说Storm由于这种处理的固有迭代性质而不适合更经典的批量学习,我是否错了?谢谢澄清。
回答:
它用于在线学习的原因是它是一种逐一处理数据的解决方案,你可以通过设置一些并行化(更多的工作进程和节点)来扩展它。
你通常使用批量学习来构建或训练模型,使用历史数据,但对于这种处理,逐一处理数据并不是最佳选择。由于你可能需要处理几个月的数据,你希望批量处理以优化过程。这就是其他解决方案如Spark派上用场的地方。