基于因素化表示的TD(λ)算法

doi:10.3969/j.issn.1000-3428.2009.13.066

计算机工程 ›› 2009, Vol. 35 ›› Issue (13): 190-192,. doi: 10.3969/j.issn.1000-3428.2009.13.066

基于因素化表示的TD(λ)算法

戴帅，殷苌茗，张欣

(长沙理工大学计算机与通信工程学院，长沙 410076)

收稿日期:1900-01-01 修回日期:1900-01-01 出版日期:2009-07-05 发布日期:2009-07-05

Algorithm of TD(λ) Based on Factored Representation

DAI Shuai, YIN Chang-ming, ZHANG Xin

(School of Computer & Communication Engineering, Changsha University of Science & Technology, Changsha 410076)

Received:1900-01-01 Revised:1900-01-01 Online:2009-07-05 Published:2009-07-05

摘要/Abstract

摘要： 提出一种新的基于因素法方法的TD(λ)算法。其基本思想是状态因素化表示，通过动态贝叶斯网络表示Markov决策过程(MDP)中的状态转移概率函数，结合决策树表示TD(λ)算法中的状态值函数，降低状态空间的搜索与计算复杂度，因而适用于求解大状态空间的MDPs问题，实验证明该表示方法是有效的。

关键词: 因素化表示, 动态贝叶斯网络, 决策树, TD(λ)算法

Abstract: This paper proposes a new algorithm of TD(λ) based on factored representation. The main principle of the algorithm is that states are factored representation, and makes use of Dynamic Bayesian Networks(DBNs) to represent the conditional probability distributions in Markov Decision Processes(MDPs), together with decision-trees representation of value function in the algorithm of TD(λ) to lower the state space exploration and computation complexity. Therefore the algorithm is a promise for solving large-scale MDPs problems which are of a huge state space. Experiments demonstrates the validity of this representation method.

Key words: factored representation, Dynamic Bayesian Networks(DBNs), decision tree, algorithm of TD(λ)

中图分类号:

TP18

戴帅;殷苌茗;张欣. 基于因素化表示的TD(λ)算法[J]. 计算机工程, 2009, 35(13): 190-192,.

DAI Shuai; YIN Chang-ming; ZHANG Xin. Algorithm of TD(λ) Based on Factored Representation[J]. Computer Engineering, 2009, 35(13): 190-192,.

http://www.ecice06.com/CN/Y2009/V35/I13/190

[1]	王博, 张远, 杨咏蓓. 基于模仿学习的决策树码率自适应算法研究[J]. 计算机工程, 2023, 49(5): 206-214.
[2]	甘红楠, 张凯. 参数自适应下基于近邻图的近似最近邻搜索[J]. 计算机工程, 2022, 48(9): 28-36.
[3]	冉懿, 王润年, 潘红伟, 俞海猛, 袁培森. 面向停电分类预测的因子分解机模型[J]. 计算机工程, 2022, 48(5): 98-103,111.
[4]	李莉, 任振康, 石可欣. 代价敏感的Boosting软件缺陷预测方法[J]. 计算机工程, 2022, 48(3): 175-180.
[5]	常硕, 张彦春. 基于袋外预测和扩展空间的随机森林改进算法[J]. 计算机工程, 2022, 48(3): 1-9.
[6]	纪文桃, 李媛媛, 秦宝东. 基于决策树的SM4分组密码工作模式识别[J]. 计算机工程, 2021, 47(8): 157-161,169.
[7]	何发镁, 马慧珍, 王旭仁, 冯安然. 基于特征分组聚类的异常入侵检测系统研究[J]. 计算机工程, 2020, 46(4): 123-128,134.
[8]	张月平, 李茹, 王元龙, 柴清华, 武宇娟, 关勇. 汉语语篇零形式识别与填充方法研究[J]. 计算机工程, 2020, 46(3): 79-86.
[9]	李杨, 陈子彬, 谢光强. 一种基于ExtraTrees的差分隐私保护算法[J]. 计算机工程, 2020, 46(2): 134-140.
[10]	张传伟, 曾虹钧, 杨萌月, 李波, 陈尚瑞. 基于多分辨率滤波通道的多尺度行人检测[J]. 计算机工程, 2020, 46(2): 235-241.
[11]	李远航, 陈先来, 刘莉, 安莹, 李忠民. 面向差分隐私保护的随机森林算法[J]. 计算机工程, 2020, 46(1): 93-101.
[12]	高宁化, 王姮, 冯兴华. 基于动态模糊决策树的心电信号分类方法[J]. 计算机工程, 2020, 46(1): 80-86.
[13]	杨晨, 梁意文, 谭成予, 周雯. 结合XGBoost的树突状细胞改进算法[J]. 计算机工程, 2019, 45(9): 194-197,203.
[14]	张波, 周从华, 张付全, 张婷, 蒋跃明. 一种面向SNP选择的模糊聚类算法[J]. 计算机工程, 2019, 45(8): 66-74.
[15]	张旭, 周新志, 赵成萍, 邵伦. 基于犹豫模糊决策树的非均衡数据分类[J]. 计算机工程, 2019, 45(8): 75-79,91.

选择文件类型/文献管理软件名称

选择包含的内容

基于因素化表示的TD(λ)算法

Algorithm of TD(λ) Based on Factored Representation

PDF

可视化

被引次数

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics

本文评价

模态框（Modal）标题

选择文件类型/文献管理软件名称

选择包含的内容

基于因素化表示的TD(λ)算法

Algorithm of TD(λ) Based on Factored Representation

PDF

可视化

被引次数

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics

本文评价