时间域被动性控制方法基于被动性假设,将操作者、力觉交互设备、虚拟环境分别看作电网络端口环节,定义能量观测器来描述一个端口元件被动性损失的程度,在被动性损失时,对力信号进行修正,达到保证整个系统被动性的目的.这种方法在计算能量时需要进行速度微分,在低速操作时会引入比较大的计算噪声,造成力觉设备的振荡和噪音.
图7 模型4力的时间梯度
Fig.7 Force2timegradientinmodel
4
图8 模型4力的空间梯度
Fig.8 Force2positiongradientinmodel4
本文基于力的空间梯度概念,设计一种消除振荡的简化方法,以便实现稳定的力觉交互仿真.
约束切换与阻抗显示力反馈设备的稳定性研究x 王
基于力觉交互设备Phantom(R)的性能参数,选择力的空间梯度阈值Keclimit,对力信号进行修正,保证力信号空间梯度与力觉交互设备的阻抗范围相匹配,达到消除振荡的目的.修正模型如下:
ecec
Fk=Fk+ΔF(Klimit/Kc)…Kc>Klimit→→
′′
→→
→
Fk=Fk…Kc≤Klim
→
ec
(9)
it
其中F′k为修正后的虚拟力信号.
对于3.2节的模型2的变刚度虚拟墙壁,选择ec
Klimit=1.5N/mm,试验测量得到力觉装置位置信号随时间的变化曲线如图9所示,图10为交互力的空间梯度变化曲线.由图可见,信号处理后力的空间梯度变化幅度大大减小,有效地抑制了振荡
.
图11 表面探测交互力信号
Fig.11 Forcesignalduringsurfaceprobing
图12 切削过程交互力信号
Fig.12 Forcesignalduringcutting
图9 模型2经力滤波处理后的位置信号
Fig.9 Positionsignalafterforcefilteringinmodel2
5 结论(Conclusion)
本文基于阻抗原理交互设备,讨论复杂形状物
体感知和切削时振荡问题的产生原因和消除的方法.首先将复杂物体形状的感知和交互过程归结为动态单边约束的接触问题;然后通过分析力的时间和空间分布梯度,对比基本单边约束和复杂单边约束的区别,指出由于约束切换,导致力信号空间梯度过大,这是复杂单边约束交互产生振荡的原因;通过对虚拟力信号进行滤波,保证力信号空间梯度与力觉交互设备的阻抗范围相匹配,达到了消除振荡的
图10 模型2经力滤波处理后的力空间梯度
Fig.10 Force2positiongradientafterforcefilteringinmodel2
本文的方法集成在牙科手术力觉交互仿真系统中,实现了操作球形工具对牙齿进行滑动接触和表面切削的模拟.在工具沿牙齿表面滑动的接触试验中,交互过程中嵌入深度的变化如图11所示,在工具沿牙齿表面切削试验中,交互过程中嵌入深度的变化如图12所示.采用该方法前后,操作者感受的效果存在明显的差别,试验结果表明,该方法可行地实现了仿真系统稳定性和逼真度的折衷
.
目的.通过试验验证了该方法的有效性.未来的研究将探讨基于力的空间梯度修正方法对于力觉仿真系统逼真度的影响,对该方法进行优化.
参考文献 (References)
[1]SrinivasanMA,BasdoganC.Hapticsinvirtualenvironments:taxono2
my,researchstatus,andchallenges[J].Computer&Graphics,1997,21(4):393-404.
[2]AdamsRJ,HannafordB.Stablehapticinteractionwithvirtualenviron2
ments[J].IEEETransactionsonRoboticsandAutomation,1999,15(3):465-474
(下转第106页)
约束切换与阻抗显示力反馈设备的稳定性研究x 王
106 机 器 人2004年3月
从实验结果不难看出,该方法不但可以使月球
车完全适应陌生的动态环境,还可以在线进行学习,满足系统的实时性.为了验证此方法对于系统可靠性的提高,将它与模糊控制和强化学习方法进行了比较.将月球车分别放置于障碍物稀疏和密集两种环境下,为其任意制定起始点,实验结果如表2.
表2 实验结果
Table2 Experimentsresults
稀疏环境成功率
模糊控制方法标准强化学习方法模糊Q学习方法
89%92%98%
5 结论(Conclusion)
本文给出了多月球车的分布式定位/通讯网络.基于模糊学习的月球车行为决策方法不但克服了模糊控制方法完全依靠参数的调节和不具备记忆功能的缺点,又解决了强化学习方法行为搜索过程相对缓慢的问题.计算机仿真试验表明,此方法既利用模糊控制算法简便的特性,完成实时行为选择,又可利用强化学习,完善自身行为的适应能力.
参考文献 (References)
[1]王巍,梁斌,夏玉华,等.月球漫游车关键技术初探[J].机器人,
2003,1(3):280-284.
[2]SchwartzA.Areinforcementlearningmethodformaximizingundiscount2
edrewards[A].ProceedingsoftheTenthInternationalConferenceonMachineLearning[C].Amherst,MA:MorganKanfmannPublishers,1993.298-305.
[3]WhitleyD,DominicS,DasR,etal.Geneticreinforcementlearningfor
neurocontrolproblems[J].MachineLearning,1993,13(4):259-284[4]PiggottP,SattarA.Reinforcementlearningofiterativebehaviorwith
multiplesensors[J].JournalofAppliedIntelligence,1994,4(2):381-365.
[5]KaelblingLP.Associativereinforcementlearning:functioninK2DNF
[J].MachineLearning,1994,15(2):279-298.
[6]TesauroGJ.TemporaldifferencelearningandTD2Gammon[J].Com2
municationsoftheACM,1995,38(3):58-68.
密集环境
成功率
78%85%94%
平均通过时间
243626
从实验结果可以看出,无论在障碍物稀疏还是密集的情况下,模糊Q学习方法的通过率均高于其它两种方法.由此可见,该方法具有较强的鲁棒性.另外,从平均通过时间的比较可以看到,基于模糊Q学习的方法所需时间大约比纯粹的强化学习方法缩短30%,这在很大程度上是因为处于底层的模糊算法缩减了计算量,为高层的强化学习算法指明了搜索方向.需要指出的是,虽然所提出的方法比纯粹的强化学习方法所需时间短,但是要比模糊控制方法所需时间长.这主要是因为当环境情况较为复杂时,月球车容易陷入局部最小点,这也是我们在以后的研究过程中需要进一步改进的地方.
作者简介:
孟 伟(19742),女,博士研究生.研究领域:智能机器人,
智能控制.
百度搜索“77cn”或“免费范文网”即可找到本站免费阅读全部范文。收藏本站方便下次阅读,免费范文网,提供经典小说公务员考试约束切换与阻抗显示力反馈设备的稳定性研究x 王(3)在线全文阅读。
相关推荐: