公共文化服务平台

共 8 条记录，以下是 1-8

全选清除导出

排序方式：

分层强化学习中自动分层算法的研究: 在强化学习的实际应用中,“维数灾难”问题一直困扰着其发展。虽然“维数灾难”问题是由待解决问题的本质所决定的,无法从根本上进行消除,但是却可以从方法上加以克服。分层强化学习通过时间抽象形成分层控制策略,简化了复杂问题的处理...; 胡坤; 关键词：分层强化学习子目标; 文献传递

一种改进的自动分层算法BMAXQ被引量：1: 2011年; 针对MAXQ算法存在的弊端,提出一种改进的分层学习算法BMAXQ。该方法修改了MAXQ的抽象机制,利用BP神经网络的特点,使得Agent能够自动发现子任务,实现各分层的并行学习,适应动态环境下的学习任务。; 胡坤余雪丽李志; 关键词：分层强化学习 BP神经网络

基于半马氏博弈模型的分层强化学习研究被引量：2: 2012年; 针对多Agent强化学习研究中面临的非马尔可夫环境和维数灾难问题,提出了一种半马氏博弈模型和MAHRL(multi-agent hierarchical reinforcement learning)协同框架。该模型弱化了系统对外界环境的要求,引入了随机时间步和通信策略的概念,更符合MAHRL研究的实际情况;协同框架中分别用SMG和SMDP模型对不同子任务进行建模,明确了Agent之间的协同机制。通过实验证明了SMG模型和协同框架的有效性和优越性。; 李誌胡坤余雪丽; 关键词：多AGENT强化学习分层强化学习

应急决策系统中时态知识表示与推理的研究: 随着社会经济的发展，决策制定过程中出现了一些新的特性，如影响决策结果的因素不断增多、与决策问题相关的信息源范围不断扩大、决策问题的非结构化程度和复杂性不断提高等。美国“911”及各种危机事件发生后，被处理信息的时态特性—...; 胡坤; 关键词：决策系统知识表示时态信息; 文献传递

时序描述逻辑TL-SI及其判定算法: 时序描述逻辑能够通过概念(或个体)问的时序关系描述动态领域的时序行为。时序概念的表现形式具有多样性，而其推理算法却常常是不可判定的。本文提出时序描述逻辑TL-SI，将时序网络间的蕴含算法、时序概念间的蕴含算法以及非时序概...; 胡坤余雪丽; 关键词：可满足性语义WEB服务; 文献传递

基于时态知识的应急决策模型及其推理的研究: 时态知识的表示与推理，在应急决策支持系统中起着非常重要的作用。应急系统不仅需要正确处理时态数据，还应考虑知识的时态属性，根据时态知识处理时态数据。本文提出了一个简单易行的 EDSS 模型，运用间断区间时态逻辑改造知识库，...; 谢红薇胡坤余雪丽; 关键词：时态知识区间逻辑应急决策; 文献传递

应急系统中不确定时态知识表示及其推理被引量：10: 2007年; 在分析现有不确定信息表示模型基础上,提出了一种可扩展的时态知识表示模型,该模型对真实事件的间断性表示加以改进,进而讨论了应急决策知识库的构建方法和相应推理机制。实验数据表明,在原型系统中使用改进后的表示模型和推理方法,能够提高应急系统处理效率和决策方案的合理性。; 谢红薇胡坤余雪丽; 关键词：时态知识应急系统

强化学习中异构反馈信号的分析与集成: 2012年; 探讨了在高度危险行业的游戏式专业救援培训系统中,视觉与听觉信号能否协同作用以提高人们的记忆和推理能力问题;运用半马尔科夫博弈模型(semi-Markov game,SMG)提出了合作型多agent分层强化学习框架和算法,构建了由视觉处理agent、听觉处理agent以及人类agent组成的异构异质多agent系统;指出分析和归纳视觉听觉相干反馈信号的性质和特点是非常具有挑战性的任务,其决定了强化学习中异构信号的集成方法和途径。在此基础上,提出了将异构反馈信号进行集成的偏信息学习算法,大大缩小了状态搜索空间,缓解了强化学习固有的"维数灾难"问题;根据心理治疗的"系统脱敏"原理,设计了"情绪-个性-刺激-调节"(mood-personality-stimulus-regulation,MPSR)模型和恐怖场景个性化呈现算法(personalized rendering algorithm for terrorist scene,PRATS),用于提升救援队员的心理承受能力,并通过实验验证了算法的有效性。; 余雪丽李志周昌能崔倩胡坤; 关键词：异构反馈信号

全选清除导出

共1页<1>

胡坤