人类擅长从稀疏的经验中学习,通过利用世界的内部模型来推断他们从未采样的选项的值,即基于模型的学习。然而,大脑是如何支持这种学习的,在很大程度上仍然是未知的。
2026年4月9日,北京师范大学柳昀哲团队在Neuron(IF=15.3)在线发表题为Human hippocampal ripples prioritize model-based learning的研究论文。该研究通过颅内脑电记录和强化学习任务,揭示了人类海马体的“涟漪”信号如何优先处理高价值的间接经验,并与前额叶皮层协同完成高效学习。
人脑可以从如此少的东西中学到如此多的东西。想象一下,你在一个偏僻的山谷里发现了一条金矿矿脉。你很快不仅喜欢你刚刚走过的路线,而且喜欢汇聚在那个山谷的其他路径,尽管你从来没有选择过它们。在强化学习(RL)中,这种能力被形式化为基于模型的学习,由此从直接(“本地”)经验中推断出间接(“非本地”)结果,以指导未来的选择。
本质上,大脑可以通过使用环境的内部模型来学习未访问选项的价值,即非局部价值更新。然而,更新所有非局部状态的值在计算上是困难的。RL理论提出,通过为候选体验分配“优先级”来实现效率,允许最有用的非局部状态首先被更新。然而,大脑如何实现这种优先级仍不清楚。
一种可能的机制是神经重放,通常被描述为任务状态或轨迹的离线再激活。人类神经成像报告了与基于模型的推理相一致的重放模式,并且计算建模和经验工作都表明再激活可能偏向具有更高预测效用的轨迹。然而,尚不清楚哪些神经元事件和哪些大脑区域支持这种优先顺序。
机理模式图(图源自Neuron)
啮齿动物研究指出,海马体是组织重播和支持基于模型的行为的关键场所。伴随重播的海马体中短暂的高频“波纹”, 与中脑奖励反应神经元协调,并支持物理和抽象空间中的奖励学习。波纹还包含环境的表示,在长期波纹中具有更细粒度的表示内容。然而,关于波纹如何在基于模型的学习中运作,知之甚少,这是人类智能的基本能力。
在这里,研究人员记录了34名癫痫患者的颅内电生理(iEEG ),这些患者执行强化学习任务,需要使用任务结构来推断未访问(非局部)路径的值。海马波纹与优先非局部学习相关。在每个结果之后,涟漪事件携带了关于哪个间接经验最有价值更新的信息,涟漪越长,表示优先级信号越强。
这些事件与高优先级路径比低优先级路径更强的皮层激活相一致。重要的是,在这个奖励后的时间窗内,外侧额极皮质活动与海马波纹精确同步,这预示着更有效地利用任务结构和更准确的非局部价值学习。总之,该发现表明以波纹为中心的海马-前额叶协调支持有效的基于模型的学习。
参考消息:https://www.cell.com/neuron/fulltext/S0896-6273(26)00211-4