而当 Xt-3 1时,Y 为1的概率要加上50%,变为100%;当 Xt-8 为1时,Y 为1的概率要减去25%,变为25%;如果 Xt-3 和 Xt-8 同时为1,则 Y 为1的概率为50%+50%- 25%=75% 因此会分别在 Xt-3 和 Xt-8 这两处有依赖关系。 当网络只学习到 Xt-8 这个依赖关系:那么它将在25%的时间内100%准确,25%的时间分配一个概率为50%,并另外的50%时间正确率为75%,预期的交叉熵损失约为0.45。
在时间t,Xt的值有50%的概率为1,50%的概率为0; 输出数据Y:在实践t,Yt的值有50%的概率为1,50%的概率为0,除此之外,如果`Xt-3 == 1`,Yt为1的概率增加50%, 如果`Xt