A.是一種訓(xùn)練分類(lèi)器的算法 B.利用被誤分類(lèi)的數(shù)據(jù)調(diào)整現(xiàn)有分類(lèi)器的參數(shù),使調(diào)整后的分類(lèi)器判斷更加準(zhǔn)確 C.感知器的學(xué)習(xí)算法就是不斷減少對(duì)數(shù)據(jù)誤分類(lèi)的過(guò)程 D.感知器的損失函數(shù)是在整個(gè)訓(xùn)練數(shù)據(jù)集上求得的 E.以上皆是
A.第一層 B.倒數(shù)第二層 C.倒數(shù)第一層 D.第二層 E.倒數(shù)第三層
A.一組可以動(dòng)態(tài)變化的狀態(tài)(state)。比如圍棋棋盤(pán)上的黑白子的分布位置,市場(chǎng)上的每支股票的價(jià)格 B.一組可以選取的動(dòng)作(action)。比如對(duì)于圍棋來(lái)說(shuō),就是可以落子的位置;對(duì)于股票交易來(lái)說(shuō),就是每個(gè)時(shí)間點(diǎn),買(mǎi)入或者賣(mài)出的股票以及數(shù)量 C.一個(gè)可以和決策主體(agent)進(jìn)行交互的環(huán)境。這個(gè)環(huán)境會(huì)決定每個(gè)動(dòng)作后狀態(tài)如何變化。比如說(shuō)圍棋博弈中的對(duì)手,或者股票市場(chǎng)。在強(qiáng)化學(xué)習(xí)中,為了降低學(xué)習(xí)的代價(jià),很多時(shí)后我們會(huì)使用一個(gè)通過(guò)機(jī)器模擬的環(huán)境,而不是以真實(shí)場(chǎng)景作為環(huán)境 D.回報(bào)(reward)規(guī)則。當(dāng)決策主體通過(guò)行動(dòng)狀態(tài)發(fā)生變化時(shí),它會(huì)獲得回報(bào)或者受到懲罰 E.以上皆是