功性,直至最终取得最佳目标的鲁棒性机制。所以,机器学习(ML)与MAS 结合是有趣而必要的。一件非常有意义的事情是足球机器人可以直接被用来评价不同的多智能体技术,特别是有关多智能体的学习和相互协调。
1.3.3 机器人足球系统的典型结构
智能体(Agent)结构不同,决策方式也不同。机器人球队的结构差异很大,目前在研究领域流行的几种Agent 结构都可使用。如使用BDI 模型,使用反应式结构,但使用最多的是基于层结构的混合结构模型。
1.基于BDI 模型的慎思结构
在一个动态不确定的环境中,如足球机器人比赛,建立一个统一、稳定的环境模型是必要的。通过一个稳定的环境模型,偶然的错误信息能够被更正,不精确的信息能够重新进行估算,而且能够通过推理获得错过的信息。为了能够实现最终的目标,每个Agent 需要在其内部维护一个稳定的环境模型,含有一个稳定的信念。有多支球队使用BDI 模型,其中最著名的为AT Humboldt Team,曾获得1998 年比赛的亚军,ATHumboldt Team 的结构特点是按照BDI 模型的结构建立全队的规划过程。信念就是环境的模型,愿望就是从固定目标库中选择的目标,意图则表现为两个阶段的规划过程。
2.反应结构
从传感器进入数据的同时传给多个行为模块,如果某些模块的条件被满足,则这些行为就会被输出,但究竟哪一个被执行,或全部执行,需要裁决模块来判决。一般常用的算 法有动态优先级算法和混合算法。需要根据具体应用环境而定。
3.层结构
层结构一般可以分为两层或三层:通讯层、控制层和决策层。Sohota发展了一个决策技术,称之为reactive deliberation,它在多个事先定义好的行为之间进行选择。建立了层学习模式,首先学习低级技术,然后按照层的顺序,越来越高的层技术和行为被加入。
Stone采用以前的技术优势介绍并实现了分层学习,分层学习是机器学习的一种方法,它定义一系列建立一个对复杂系统分层次学习方案的准则,这些准则包括:直接从输入到输出的学习难以实现、可以给出从底层到高层的任务分解、机器学习探索训练数据或在不同层次产生适应性学习、一层的学习输出提供给另一层。断球使得智能体学到底层的控球能力,传球评估使智能体运用它以及学到的截球技术去训练一个多智能体行为,传球行为是智能体利用学到的传球评估去学习一个团队行为。一个分层任务分解后,分层学习使每一层次的学习都影响到其较高层次的学习。此系统与Sohota 系统的最大差别在于Stone 没有使用事先定义好的行为,所以,系统适合整队比赛,而Sohota 的技术主要用在一对一的情况。但Stone 的层学习有一个重要的问题,由于学习的过程是从低级到高级逐步进行,每步学习都是在低一层的基础上进行的,因此当某一层学习产生误差时,误差会通过层之间进行传递,使整个系统出现决策失误。南加州大学的ISIS 队使用了精确的队模型,称之为STEAM,由于环境状态空间特别巨大,精确的模型会影响系统的鲁棒性,荷兰阿姆斯特丹大学的Jan Lubbers &Rogier R. Spaans将Stone 的层结构进行简化,建立推理层和执行层的双层结构。同时采用面向对象技术中的Priority /Confidence模型进行决策算
百度搜索“77cn”或“免费范文网”即可找到本站免费阅读全部范文。收藏本站方便下次阅读,免费范文网,提供经典小说教育文库基于JAVA的五人制足球游戏攻防策略(11)在线全文阅读。
相关推荐: