我正在进行交通流量预测,目的是预测某个地点的交通是繁忙还是畅通。我将交通流量分为1到5级,其中1级表示交通最畅通,5级表示交通最繁忙。
我在这个网站http://www.waset.org/journals/waset/v25/v25-36.pdf上了解到AdaBoost算法,我在学习这个算法时遇到了很多困难。特别是在S
是集合((xi
, yi
), i=(1,2,…,m)
)的部分,其中Y={-1,+1}
。什么是x
、y
和常数L
?L
的值是多少?
有人能解释一下这个算法吗?:)
回答:
S={(x1,y1),...,(xm,ym)}
:每个(x,y)
对都是用于训练(或测试)你的分类器的样本:
x
= 描述这个特定样本的特征,例如列出道路上的车辆数量
、星期几
等的值y
= 特定x
的标签,在你的情况下可以是1, 2, 3, 4 或 5
论文中的表1
展示了他们使用的x
特征,即:DAY
、TIME
、INT
、DET
、LINK
、POS
、GRE
、DIS
、VOL
和OCC
。表格的最后一列显示了标签(y
),他们将其设置为1
或-1
(即是
或否
)。表格中的每一行都是一个样本。
L
是AdaBoost训练弱学习器的轮数(论文中使用随机森林
作为弱分类器)。如果你将L
设置为1
,那么AdaBoost将运行1轮,只训练一个弱分类器,结果会很差。进行多次实验,使用不同的L
值来找到最佳值(即当AdaBoost收敛或开始过拟合时)。