进化论中的拉马克进化论和鲍德温效应
拉马克进化论:
拉马克理论指出,个体在其一生中获得的特征将它们传递给他们的孩子。这一理论以法国生物学家让·巴蒂斯特·拉马克 (Jean Baptiste Lamarck) 的名字命名。根据拉马克的理论,学习是物种进化的重要组成部分(或为了我们在进化算法中的目的)。该理论在生物学背景下不可信,但可用于机器学习中的遗传算法。
鲍德温效应:
鲍德温提出,个体学习可以解释似乎需要拉马克继承后天特征的进化现象。个人的学习能力可以指导进化过程。实际上,学习平滑了适应度,从而促进了进化。
鲍德温效应首先由 Hinton 和 Nolan在 1987 年在机器学习的背景下展示。他们采用简单的神经网络 (NN)。在一项实验中,他们采用固定权重的 NN,而其他 NN 设置为可训练。他们得出的结论是:
- 当没有个体学习时,种群(神经网络的集合)无法随着时间的推移而改善。
- 在早期应用学习时,种群包含许多具有许多可训练权重的个体,但在后期阶段,随着个体中可训练权重的数量减少,它实现了高适应度。
G-prop算法:
G-Prop 是一种进化混合算法。它是反向传播(BP) 和多层感知器 (MLP) 的混合体。下面是 G-Prop 算法。
- 生成具有随机权重值和隐藏层大小从 2 到给定值的最大值均匀分布的初始模型。
- 对于 G 代:
- 评估新个体:使用训练集训练他们,根据验证集上正确分类的数量和隐藏层大小获得他们的适应度。
- 根据价值适应度函数选择种群中最好的n个个体,并利用隐藏神经元的变异、交叉、加法、消除和替代将它们组合起来。
- 用新的个体替换n 个最差的个体。
- 使用测试集上最好的个体来获得测试错误。
适应度函数:适应度函数定义为对验证集进行分类/近似以在每一代训练时分离最佳个体的能力。在两个个体具有相同适应度函数的情况下,具有最低隐藏层参数的个体更好,因为参数的数量与训练速度成正比。
- Lamarckian 方法没有使用特殊的适应度函数,而是使用局部搜索遗传运算符(类似于快速传播),旨在改进个体,将个体训练的权重保存回总体。
- 对于鲍德温效应,使用适应度函数的过程如下:
- 第一步,我们在训练前计算验证集上个体的分类/逼近能力。
- 然后对其进行训练并使用以下标准计算其能力:
- 最好的个体(MLP/ANN)是训练后具有较高分类/逼近能力的个体。
- 如果两个 MLP 显示相同的准确性。那么最好是训练前的分类/逼近能力较高的,这是因为直觉是MLP在再次训练时更有可能具有较高的准确率。
- 如果两个 MLP 在训练前后具有相同的准确率,那么最好的模型是较小的(可训练参数较少的模型)。
结果和结论:
- 作者得出结论,拉马克策略在整个模拟过程中在早期世代中找到了一个合适的个体(MLP),从而停止进化。虽然鲍德温效应可以比拉马克方法更好,但它需要更多代。
- 从上述结论还可以看出,拉马克策略生成的神经网络很小,因此训练、预测和设计它所需的时间更少。
- 另一个重要的结果是拉马克运算符改进了早期世代的适应度函数。这是由于精英算法,其中最适合的个体的某些部分被复制到下一代。个体(在其上复制了最合适的个体数据)可以获得相对于种群剩余成员的优势,并将继续成为种群中最好的个体,直到模拟结束
参考:
- 进化神经网络中的拉马克进化和鲍德温效应
- 学习如何引导进化