强化学习是我的研究方向,在学习过程中我意识到这种理论在某种程度上就是经验主义,即强化有用的经验而摒弃有害的经验。开放在某种程度上就是去经验主义,在开放的表述方式中,“一定”和“不可能”一样都是不可靠的。我对开放性带来的功利性和经验主义同样质疑,而质疑不代表否定。这篇文章的出发点则是从强化学习的原理出发,说明功利在理性上是存在问题的。关于开放这件事,我在个人微博上也阐述了,开放就是有余力而无目的的学习,它的标准要远高于功利主义。

把奖励函数设置地太功利是有问题的,这太注重短期效益和事务内部逻辑的自洽,对问题整体的思考较差。其中有一些比较严重的问题:

  • 功利型驱动的奖励函数的设计太单一,导致对单一事物的过拟合(过拟合确实会带来更高的performance,但是缺点也不用说),造成对其他事物的理解力下降(虽然说我们为一件大事而来,但生活确实不只关乎于寥寥几件事)。此外,虽然有时候会得到一个高performance score的模型,但是这个score对实际生活的意义可能不那么大。

  • 我们所处的环境模型的复杂度和随机性远远高于简单的数学模型,以至于外部的变化对performance影响很大,不要说百年一遇,就算十年一遇的情况也可能会一损俱损。

  • 样本采样率太低,我们很依赖于个人的经验(程度远远比我们想象的更多),这是很局限的,不具有广泛性。就算在个人经验中,样本也是无法反映环境的全部特性,只能反映局部特性。作为智能体,我们贫弱的记忆力和模糊的感觉最多只能捕捉近两三年的大尺度有效信息,对于多尺度的信息则捕捉不到,以至于模型鲁棒性太低,这可能决定决策的无效。

  • 从外部采集的训练样本(从各大社交媒体看到的二手信息)有幸存者偏差的问题。因为成功,所以被看到,但是失败的大多数就难以被捕捉到,这样失败的经验对整个模型而言没有什么价值,导致我们对于一个路径的认识是片面的。

综上,功利性目标有时候是无效的,虽然很多时候确实会带来高的performance(甚至远强于普通函数的performance,例如年薪10W和年薪100W),但不排除这就是一种人的错觉,比如说在环境稳定时,就算什么都不做也不会导致震荡的情况,肯定会有很高的performance。

但是该如何做呢?我觉得主要从几个角度。

  • 寻找普适的价值,但保持个人的判断力。比如说,绝大多数人都承认努力的价值,虽然说努力是功利的,但是它确实带来了更高的performance。而绝大部分人都承认的东西,大概率是安全的。在模型中加入“努力&刻意训练&延迟满足”这个因子,几乎带来的有效性是100%,就像DQN变成RAINBOW DQN。其他的因子,比如“自律”,“正直”,效果也是相同的。但是也不必过分努力和刻意训练,很多时候这要求个人付出更多的精力,导致力竭也得不到好的效果,甚至是反效果。

  • 增加样本量。没有训练不好的模型,只有不全面的数据,我们如果记住了所有的人类经验样本,肯定能做到一个合理的决定,但是这是不可能的。不过这也揭示了某些道理,往那里靠近也许是对的。

  • 不要那么功利,太功利就会让自己局限,解决不了真实的问题。不如有时候开阔一下眼界,放轻松,做点开心的事。一本书就算只知道半本也能行走天下,人不能太贪于掌握自己当下能力之外的东西。有时候错的也是对的,对的也是错的,说不准,不能改变的也不必追究。