在进化/遗传算法中存在多种重组方法。大多数方法都存在与染色体长度相关的偏见(也称为位置偏见)。
均匀交叉和洗牌交叉可以解决这个问题。然而,我不明白两者之间的区别,如果在均匀交叉的情况下p(c)=0.5
解释
- 在
p(c)=0.5
的均匀交叉中,每个基因都是可能的交叉点。 - 在洗牌交叉中,首先对染色体序列进行均匀洗牌,然后指定一个交叉点,最后恢复原始的染色体序列——这实际上意味着尽管只发生了一次交叉,但它可以独立地影响染色体上的每个位置。
由于两种方法都涉及完全的随机化,我看不出结果应该有何不同。
为了确切了解,我编写了一个小脚本来测试这两种机制。如果你想自己尝试,这里有一些R代码
parent1 <- rep(0, 10000) # 染色体中有10,000个基因 - 可随意更改
parent2 <- rep(1, length(parent1))
# 均匀交叉
offspring1_unif <- rep(-1, length(parent1)) # 初始化offspring1_unif
offspring2_unif <- rep(-1, length(parent1)) # 初始化offspring2_unif
for(i in 1:length(parent1)) {
if (runif(1) < 0.5) {
offspring1_unif[i] <- parent1[i]
offspring2_unif[i] <- parent2[i]
} else {
offspring1_unif[i] <- parent2[i]
offspring2_unif[i] <- parent1[i]
}
}
# 洗牌交叉
## 洗牌
shuffler <- seq(1, length(parent1))
shuffler <- sample(shuffler, length(parent1))
## 执行交叉
crossover_point <- sample(1:length(parent1), 1)
offspring1_shuffle <- rep(-1, length(parent1)) # 初始化offspring1_shuffle
offspring2_shuffle <- rep(-1, length(parent1)) # 初始化offspring2_shuffle
for(i in 1:length(shuffler)) {
if (i < crossover_point) {
offspring1_shuffle[shuffler[i]] <- parent1[shuffler[i]]
offspring2_shuffle[shuffler[i]] <- parent2[shuffler[i]]
} else {
offspring1_shuffle[shuffler[i]] <- parent2[shuffler[i]]
offspring2_shuffle[shuffler[i]] <- parent1[shuffler[i]]
}
}
mean(offspring1_unif) # 0.493
mean(offspring1_shuffle) # 0.3295
mean(offspring2_unif) # 0.507
mean(offspring2_shuffle) # 0.6705
sd(offspring1_unif) # 0.499976
sd(offspring1_shuffle) # 0.4700552
sd(offspring2_unif) # 0.499976
sd(offspring2_shuffle) # 0.4700552
回答:
两者的区别在于交换次数的分布不同。
-
均匀交叉:
我们以与其他交换独立的概率p选择一个基因进行交换,即一个伯努利实验,并且我们对整个染色体进行这个伯努利实验,即假设对n个基因进行,所以交换次数将遵循二项分布。 -
洗牌交叉:
我们首先随机洗牌染色体(主要是为了避免位置偏见,即解耦染色体中基因位置与交换的概率——我们在均匀情况下也处理了这种偏见。与均匀情况不同的是,我们只选择一个交叉点,并且这个交叉点一侧的所有元素都将被交换,因此我们以1/2的相等概率交换任意数量的基因。因此,我们也避免了所谓的分布偏见,即交换次数的概率不同。