物理学家已经开发出一种动物行为的动力学模型,可以解释围绕联想学习的一些谜团,这些谜团可以追溯到巴甫洛夫的狗。美国国家科学院院刊(PNAS)发表了基于对常见实验室生物体线虫线虫进行的实验的研究结果。
埃默里大学物理学和生物学教授IlyaNemenman说:“我们展示了习得的关联如何不仅仅由关联的强度调节,而是由多个几乎独立的途径调节——至少在蠕虫中是这样,”他的实验室领导了理论分析纸。“我们预计类似的结果也适用于大型动物,包括人类。”
“我们的模型是动态的和多维的,”多伦多大学唐纳利中心物理学副教授WilliamRyu补充道,他的实验室领导了实验工作。“它解释了为什么这个联想学习的例子不像形成一个单一的积极记忆那么简单。相反,它是同时发生的积极和消极联想之间的持续相互作用。”
该论文的第一作者是艾哈迈德·罗曼(AhmedRoman),他作为埃默里大学的研究生参与了该项目,现在是BroadInstitute的博士后研究员。多伦多大学前研究生康斯坦丁·帕兰斯基(KonstaintinePalanski)也是一名作家。
条件反射
100多年前,伊万·巴甫洛夫通过对狗的实验发现了动物的“条件反射”。例如,在训练狗将声音与随后到达的食物联系起来之后联系起来之后,狗会在听到声音时开始分泌唾液,甚至在食物出现之前。
大约70年后,心理学家根据巴甫洛夫的见解开发了经典条件反射的Rescorla-Wagner模型。该数学模型通过时间依赖强度描述条件关联。当动物可以使用条件刺激(在巴甫洛夫狗的例子中是声音)来减少非条件反应(食物)到来时的惊喜时,这种强度就会增加。
这些见解为动物强化学习的现代理论奠定了基础,这反过来又使人工智能系统中的强化学习算法成为可能。但仍有许多谜团,包括一些与巴甫洛夫最初的实验有关的谜团。
在巴甫洛夫训练狗将铃声与食物联系起来之后,他会反复让它们在没有食物的情况下暴露在铃声中。在前几次没有食物的试验中,当铃声响起时,狗继续分泌唾液。如果试验持续的时间足够长,狗就会“忘掉”并停止对铃声做出反应而流口水。据说该协会已“消失”。
然而,巴甫洛夫发现,如果他等了一会儿,然后重新测试这些狗,即使没有食物,它们也会再次分泌唾液来响应铃声。巴甫洛夫和最近的联想学习理论都不能准确地解释或数学模拟这种消失的联想的自发恢复。
解开谜题
研究人员通过秀丽隐杆线虫实验探索了这些谜团。一毫米长的蛔虫只有大约1000个细胞,其中300个是神经元。这种简单性为科学家提供了一个简单的系统来测试动物的学习方式。同时,C.elegans的神经回路非常复杂,足以将研究其行为所获得的一些见解与更复杂的系统联系起来。
早期的实验已经证实,可以训练秀丽隐杆线虫更喜欢凉爽或温暖的温度早期的实验已经证实,通过用食物将线虫调节到特定温度,在一个典型的实验中,蠕虫被放置在一个有温度梯度但没有食物的培养皿中。那些受过较冷温度训练的蠕虫会移到盘子较冷的一侧,而受过较热温度训练的蠕虫会移到较暖的一侧。
但这些结果究竟意味着什么?有些人认为蠕虫会爬向特定温度以期待食物。其他人则认为,蠕虫只是习惯了那个温度,所以即使没有食物奖励,它们也喜欢在那里闲逛。
由于许多此类实验的主要局限性——蠕虫穿过9厘米的培养皿寻找首选温度所需的时间很长,因此无法解决这个难题。
衡量学习如何随时间变化
Nemenman和Ryu试图克服这个限制。他们想开发一种实用的方法来精确衡量学习的动态,或者学习如何随时间变化。
Ryu的实验室使用微流体装置将九厘米的培养皿实验模型缩小为四毫米的液滴。研究人员可以快速对数百条蠕虫进行实验,每条蠕虫都包裹在其单独的液滴中。
“我们可以实时观察蠕虫如何在线性温度梯度上移动,”Ryu说。“与其等待它爬行30分钟或一个小时,我们可以更快地看到蠕虫更喜欢液滴的哪一侧,冷的一面还是暖的一面。我们还可以跟踪它的偏好如何随着时间。”
他们的实验证实,如果一只蠕虫被训练将食物与较低温度联系起来,它就会移动到液滴的较冷一侧。然而,随着时间的推移,在没有食物的情况下,这种记忆偏好似乎会衰减。
“我们发现蠕虫突然想在液滴温暖的一面花费更多时间,”Ryu说。“这很令人惊讶,因为为什么蠕虫会产生不同的偏好,甚至会避免它们与食物相关的温度?”
最终,蠕虫开始在较冷和较暖的温度之间来回移动。
研究人员假设,蠕虫不会简单地忘记与较冷温度相关的食物的积极记忆,而是开始将较冷的一面与没有食物相关联。这促使它向温暖的一侧前进。然后随着时间的流逝,它开始形成不吃食物与较暖温度的负相关,再加上与寒冷的剩余正相关,使其迁移回较冷的温度。
“蠕虫一直在学习,一直在学习,”Ryu解释道。“积极联想的驱动力与消极联想之间存在相互作用,导致它开始在冷暖之间摇摆不定。”
“就像你丢了钥匙一样”
Nemenman的团队开发了理论方程式来描述两个独立变量之间随时间的相互作用——将蠕虫推向一个温度的正向或兴奋性关联,以及将其驱离该温度的负向或抑制性关联。
Nemenman解释说:“蠕虫被吸引到的那一侧取决于你进行测量的确切时间。”“这就像你丢了钥匙,你可以先去平时放钥匙的桌子看看,如果没有马上看到,你就到处找,如果还是找不到,你回到原来的办公桌,认为你看起来不够努力。”
研究人员在不同条件下重复了实验。他们在不同的起始温度下训练线虫,并在测试它们的温度偏好之前让它们挨饿不同的时间,并且线虫的行为可以通过方程式正确预测。
他们还通过对蠕虫进行基因改造、敲除已知作为负相关通路的胰岛素样信号通路来检验他们的假设。
“我们以特定方式扰乱生物学,当我们进行实验时,蠕虫的行为按照我们的理论模型预测发生了变化,”Nemenman说。“这让我们更有信心,该模型反映了学习的潜在生物学,至少在秀丽隐杆线虫中是这样。”
研究人员希望其他人能够在跨物种的大型动物研究中测试他们的模型。
“我们的模型提供了一种替代的多维学习定量模型,”Ryu说。“它解释了其他经典条件反射理论难以或在某些情况下无法解释的结果。”