A.第一層 B.倒數(shù)第二層 C.倒數(shù)第一層 D.第二層 E.倒數(shù)第三層
A.一組可以動態(tài)變化的狀態(tài)(state)。比如圍棋棋盤上的黑白子的分布位置,市場上的每支股票的價格 B.一組可以選取的動作(action)。比如對于圍棋來說,就是可以落子的位置;對于股票交易來說,就是每個時間點(diǎn),買入或者賣出的股票以及數(shù)量 C.一個可以和決策主體(agent)進(jìn)行交互的環(huán)境。這個環(huán)境會決定每個動作后狀態(tài)如何變化。比如說圍棋博弈中的對手,或者股票市場。在強(qiáng)化學(xué)習(xí)中,為了降低學(xué)習(xí)的代價,很多時后我們會使用一個通過機(jī)器模擬的環(huán)境,而不是以真實(shí)場景作為環(huán)境 D.回報(bào)(reward)規(guī)則。當(dāng)決策主體通過行動狀態(tài)發(fā)生變化時,它會獲得回報(bào)或者受到懲罰 E.以上皆是
A.1997年,IBM的超級計(jì)算機(jī)“深藍(lán)”擊敗國際象棋世界冠軍加里卡斯珀羅夫 B.2014年IBM旗下的DeepMind團(tuán)隊(duì)開發(fā)了人工智能圍棋程序AlphaGo C.2015年10月,AlphaGo擊敗歐洲圍棋世界冠軍樊麾,成為第一個無需讓子即可擊敗圍棋職業(yè)選手的計(jì)算機(jī)圍棋程序 D.2016年3月,AlphaGo以4:1的成績擊敗圍棋世界冠軍,職業(yè)九段棋手李世乭 E.2017年5月,在中國烏鎮(zhèn)-阿爾法元(AlphaGoZero)以3:0的成績完勝圍棋世界冠軍柯潔