机器之心报道
机器之心编辑部
生物神经网络有一个重要的特点是高度可塑性,这使得自然生物体具有卓越的适应性,并且这种能力会影响神经系统的突触强度和拓扑结构。
然而,人工神经网络主要被设计为静态的、完全连接的结构,在面对不断变化的环境和新的输入时可能非常脆弱。尽管研究人员对在线学习和元学习进行了大量研究,但目前最先进的神经网络系统仍然使用离线学习,因为这与反向传播结合使用时更加简单。
那么,人工神经网络是否也能拥有类似于高度可塑性的性质?
来自哥本哈根信息技术大学的研究团队提出了一种自组织神经网络——LNDP,能够以活动和奖励依赖的方式实现突触和结构的可塑性。
论文链接:https://arxiv.org/pdf/2406.09787
项目链接:https://github.com/erwanplantec/LNDP
研究简介
2023年,Najarro等人提出了神经发育程序(NDP)模型。但NDP在时间上限制在环境前期阶段。因此,哥本哈根信息技术大学的研究团队通过扩展NDP框架来解决这一限制。
具体而言,研究团队提出了一种在智能体生命周期内能够实现可塑性和结构变化的机制——LNDP(LifelongNeuralDevelopmentalprograms)。该机制通过执行局部计算来实现,依赖于人工神经网络中每个神经元的局部活动和环境的全局奖励函数。LNDP使得人工神经网络具备可塑性,并桥接了间接发育编码(indirectdevelopmentalencoding)和元学习的可塑性规则。
LNDP由一组参数化组件组成,旨在定义神经和突触动态,并使人工神经网络具有结构可塑性(即突触可以动态添加或移除)。
受生物自发性活动(spontaneousactivity,SA)的启发,研究团队进一步扩展了系统,引入了一种可实现预经验(pre-experience)发展的机制,用感觉神经元的简单可学习随机过程建模SA,这使得一些组件可以复用。
研究团队基于GraphTransformer层(DwivediandBresson,2021)提出了一种LNDP实例,并在一组强化学习任务中使用协方差矩阵自适应进化策略(CMA-ES)优化了LNDP。
具体来说,该研究采用了三个经典控制任务(Cartpole、Acrobot、Pendulum)以及一个具有非平稳动态的搜集任务(Foraging),这些任务需要智能体具备生命周期适应性。
总的来说,研究团队展示了从随机连接(或空)神经网络开始,LNDP以活动和经验依赖的方式,自组织地形成了功能性网络,以有效解决控制性任务。
该研究还表明,在需要快速适应或具有非平稳动态、需要持续适应的环境中,结构可塑性能够改善结果。此外,该研究还展示了基于预环境自发性活动驱动的发展阶段在网络自组织形成功能单元方面的有效性。
实验结果
研究团队在所有任务上测试了SP模型(具有结构可塑性的模型)和非SP模型(无结构可塑性的模型)之间的差异,结果如下图2所示。
在具有非平稳动态的搜集任务(Foraging)上,研究团队发现SP模型始终比非SP模型达到更高的平均适应度,并且两者达到相似的最大适应度。这表明SP在非平稳情况下具有更好的适应性。
在CartPole环境中,对于没有SA的模型来说,在最开始就达到良好性能特别困难,而具有SA的模型在最初就显示出解决任务的固有技能。这展示出模型在非奖励依赖和自组织的方式下实现目标功能网络的能力。
更多研究细节,请参考原论文。
未经允许不得转载:头条资讯网_今日热点_娱乐才是你关心的时事 » 像生物网络一样「生长」,具备结构可塑性的自组织神经网络来了