# 假设输入的是一个npc的位置
# 输入到一个当前应该向哪个方向走的网络A
# 走几步
# 根据方向和几步 通过常识和当前环境进行交互 (比如向西走10个格子,但是在自己的西边只有5个格子,那么只走5个)
# 得到新的位置
# 新的位置输入到另一个网络B推断新的位置是由什么动作导致的
# 正常来说环境也参与了 且导致了最终的结果
# 故而网络会记忆环境和动作的关系,而环境是参考系或者说网络已知环境
# 不断的正向推测 和反向推测
# 网络A和网络B 互相制约 学会了环境规则是什么 什位置 执行什么动作
# 这与普通的网络不同点在于
# 变交互边学习 且会随着环境的变化而变化
# 随着交互的行为导致的结果而变化
# A和B网络不断的再同步自己的信息与彼此相同
# 同步感知 推理和反推理 因果反因果
# 比如吃糖感觉到甜
# 甜的感觉要吃糖
# 成对的因果关系学习