发布日期: 2025年05月22日
来源:AAAS
文章内容
SWC研究组长、论文第一作者Marcus Stephenson-Jones博士解释:"我们本质上发现了一个负责习惯形成的机制。当对某个行为形成偏好后,大脑可以绕过价值评估系统,直接依赖过去行为的默认模式。这能释放认知资源来处理其他需要价值判断的事务。"
研究人员发现大脑中存在一种新型多巴胺信号,与已知的奖励预测误差(RPE)信号不同。传统认知中,多巴胺通过RPE信号告知动物实际结果是否超出预期。而新研究揭示还存在另一种称为动作预测误差(APE)的多巴胺信号,专门记录动作执行频率。这两套教学信号使动物具备两种学习选择方式:选择最有价值选项或最频繁选项。
Stephenson-Jones博士举例说明:"就像去常去的三明治店。初次光临时你会仔细选择,根据口味决定是否喜欢。但多次光顾后,你会不假思索地选择惯常口味。我们认为正是大脑中的APE多巴胺信号存储了这种默认选择模式。"
新发现的APE学习系统比直接比较选项价值的传统方式更简单高效,可能使大脑具备多任务处理能力。例如熟练驾驶后,你可以在开车时与人交谈——默认系统处理驾驶的重复性动作,而价值系统决定谈话内容。
先前研究已发现学习相关的多巴胺神经元位于中脑三个区域:腹侧被盖区、黑质致密部和黑质外侧部。虽然部分神经元被证实与奖励编码相关,但另一半神经元始终表现出与运动相关的特性,其功能长期成谜。
研究团队通过聚焦纹状体尾部区域,成功分离出运动神经元并揭示其功能。共同第一作者Francesca Greenstreet博士、Hernando Martinez Vergara博士和Yvonne Johansson博士使用基因编码的多巴胺传感器,证实该区域的多巴胺释放与运动而非奖励相关。
Stephenson-Jones解释实验发现:"当破坏纹状体尾部后,小鼠初期学习曲线与正常组相同,但在达到60-70%正确率(形成音调-方向偏好)后,正常组会快速达到专家级表现,而受损组只能保持线性进步。这是因为受损组仅能依赖RPE系统学习,而正常组拥有RPE和APE双系统协同工作。"
进一步实验显示,当专家级小鼠的纹状体尾部被抑制时,其任务表现会急剧下降。这表明动物早期学习依赖基于RPE的价值系统,后期则转为完全依靠纹状体尾部的APE系统来存储稳定关联并驱动选择。研究团队在Claudia Clopath博士带领下还通过计算建模,解析了RPE与APE双系统协同学习机制。
这些发现解释了为何戒除坏习惯如此困难——用替代行为(如嚼尼古丁口香糖替代吸烟)持续覆盖原习惯,可能让APE系统建立新习惯覆盖旧模式。Stephenson-Jones博士指出:"这项发现为戒瘾研究开辟了新方向。此前相关研究主要聚焦伏隔核,现在我们有了新的潜在治疗靶点。"
研究对帕金森病也有重要启示。该疾病由中脑多巴胺神经元(特别是黑质致密部)死亡引发,而死亡细胞恰好是编码APE的运动相关神经元。这解释了患者为何丧失行走等习惯性运动能力,却保留滑冰等需要灵活决策的运动能力。Stephenson-Jones总结道:"我们首次为帕金森病的矛盾运动症状提供了理论解释,为相关研究提供了新视角。"
目前团队正在验证APE是否确为习惯形成所必需,并探究两套系统的具体学习内容与协作机制
Dopaminergic action prediction errors serve as a value-free teaching signal
交流讨论