水果机下载-水果机出售南京_百家乐视频画面_新全讯网啊步森 (中国)·官方网站

學術(shù)信息

首頁

學術(shù)報告:穩(wěn)態(tài)方差準則的馬氏決策過程與強化學習

  報告時間:2021年5月14日(星期五)15:30-17:30

  報告地點:北辰校區(qū)土木與交通學院樓二樓216學術(shù)報告廳

  報告題目:穩(wěn)態(tài)方差準則的馬氏決策過程與強化學習

  報告嘉賓:夏俐 教授

圖片 1.jpg

  嘉賓簡介:

  夏俐,教授,博士導(dǎo)師,中山大學。長期從事隨機動態(tài)系統(tǒng)的學習優(yōu)化、馬氏決策過程、強化學習、排隊論、博弈論等理論研究,以及在能源系統(tǒng)、智能建筑、金融科技、計算機網(wǎng)絡(luò)等領(lǐng)域的應(yīng)用研究工作。分別于2002年和2007年在清華大學自動化系獲得學士和博士學位,博士畢業(yè)后分別在IBM中國研究院、沙特國王科技大學從事科研工作,2011年至2019在清華大學自動化系工作,2019年進入中山大學管理學院。以訪問學者身份在香港科技大學電子與計算機工程系、美國斯坦福大學管理科學與工程系等從事合作研究。在本領(lǐng)域頂級期刊發(fā)表論文20余篇,并獲得多項美國和中國專利。擔任IEEE Transactions on Automation Science and Engineering、Discrete Event Dynamic Systems等期刊編委。


  報告摘要:

  隨著AlphaGo的成功應(yīng)用,強化學習(Reinforcement Learning, RL)得到了學術(shù)界和工業(yè)界的日益重視。強化學習的理論基礎(chǔ)是馬氏決策過程(Markov Decision Process, MDP)。目前絕大多數(shù)的RL都是研究優(yōu)化折扣累積報酬值的數(shù)學期望,無法處理方差等風險指標。本報告將主要介紹作者近幾年在馬氏決策過程的穩(wěn)態(tài)方差最小化優(yōu)化問題的理論研究成果,穩(wěn)態(tài)方差不同于MDP以往文獻中已經(jīng)研究過的折扣累積報酬值的方差,穩(wěn)態(tài)方差是衡量MDP到達穩(wěn)態(tài)之后的系統(tǒng)報酬值的方差,能夠衡量隨機動態(tài)系統(tǒng)的風險、穩(wěn)定性、公平性、可靠性等。由于方差指標的二次費用函數(shù)形式依賴于具體策略,費用函數(shù)不具有馬氏性,優(yōu)化隨機系統(tǒng)的穩(wěn)態(tài)方差不是一個標準MDP問題,經(jīng)典動態(tài)規(guī)劃原理不再適用。我們從性能靈敏度的新角度研究這一問題,得到了一些新的理論結(jié)果,進而將MDP理論研究結(jié)果實現(xiàn)為數(shù)據(jù)驅(qū)動的風險敏感強化學習算法,應(yīng)用于風電與儲能系統(tǒng)聯(lián)合出力的波動性抑制問題,來平滑風電出力的波動性,提高風電利用率。該方法還可應(yīng)用于金融系統(tǒng)風險管理、服務(wù)系統(tǒng)公平性優(yōu)化等領(lǐng)域。


新加坡百家乐官网的玩法技巧和规则 | 大发888游戏平台 黄埔网| 网上百家乐有人赢过嘛| 闲和庄百家乐娱乐城| 尊龙百家乐官网娱乐| 金都国际| 赌百家乐可以赢钱| 百家乐官网专业赌博| 云顶国际| 利都百家乐国际娱乐场开户注册| 百家乐官网百博| 侯马市| 百家乐现金投注信誉平台| 易胜博百家乐官网作弊| 新乡县| 大发888登录器下载| 临汾玩百家乐的人在那里找| 百家乐官网书| 新太阳城工业区| 现场百家乐能赢吗| 四方百家乐官网的玩法技巧和规则| 绿春县| 大佬百家乐的玩法技巧和规则| 开店做生意的风水| 百家乐官网信誉博彩公司| 鸿博娱乐| 全讯网开奖| 百家乐国际娱乐平台| 做生意风水关键吗| 上市百家乐官网评论| 赌百家乐官网的高手| 大发888通宝| 试玩百家乐游戏机| 赌博中百家乐什么意思| 大发888棋牌| 百家乐群| 华盛顿百家乐的玩法技巧和规则 | 百家乐是娱乐场| 百家乐记算| 百家乐客户端皇冠| 悍马百家乐官网的玩法技巧和规则 |