姿勢(shì)分子：當(dāng)AI學(xué)會(huì)思考我們還能歡樂地玩游戲么？

發(fā)布時(shí)間：2017-12-27 10:32 來源：游民星空 編輯：庫瑪麗

2016年1月28日，又是人工智能歷史上的一個(gè)大日子。這天著名國際科技期刊《自然》雜志的封面論文《通過深度神經(jīng)網(wǎng)絡(luò)和搜索樹精通圍棋》如一石激起千層浪，同時(shí)在計(jì)算機(jī)界和圍棋界掀起軒然大波： Google DeepMind開發(fā)的人工智能程序AlphaGo(順帶一提，圍棋是英文就是“Go”，從日語翻譯過來的)以5:0吊打了歐洲圍棋冠軍樊麾。雖然說歐洲作為圍棋荒漠，其冠軍也不過是職業(yè)二段，而且事后中國棋院的職業(yè)選手也認(rèn)為：主要是樊麾久疏戰(zhàn)陣下得不好、AlphaGo的實(shí)際水平大概相當(dāng)于職業(yè)入門的水平。但這圍棋AI的恐怖之處在于，哪怕不升級(jí)算法，也能在不斷的對(duì)弈中提升實(shí)力，遇強(qiáng)愈強(qiáng)。類似于人——或者說更類似于玩家們很熟悉的蟲族：吞噬，進(jìn)化。即便人類當(dāng)前還有抵抗之力，圍棋AI從人類身上碾過，不過是時(shí)間問題而已。

那么，為什么在圍棋上計(jì)算機(jī)戰(zhàn)勝人類會(huì)引起這么大的轟動(dòng)?這項(xiàng)成果又能用到哪些方面?

本期《自然》雜志的封面

人類智慧的皇冠

讓我們回到19年前，1997年5月11日，隨著手持長槍短炮的記者們的一陣騷動(dòng)，IBM公司研發(fā)的超級(jí)國際象棋電腦“深藍(lán)”在連續(xù)三盤和棋后，終于在第六局取勝，以總分3.5:2.5戰(zhàn)勝了當(dāng)時(shí)在國際象棋領(lǐng)域獨(dú)孤求敗的卡斯帕羅夫，宣告計(jì)算機(jī)在國際象棋項(xiàng)目上完成對(duì)人類的超越。

計(jì)算機(jī)的嶄露頭角在當(dāng)年轟動(dòng)一時(shí)，也引起不少人對(duì)于AI取代人類的恐慌，甚至在隨后的幾年衍生出了大批電影和文學(xué)作品。盡管在深藍(lán)與卡斯帕羅夫之戰(zhàn)后一段時(shí)間內(nèi)還有人類戰(zhàn)勝或者打平電腦的事例，但隨著計(jì)算機(jī)性能的快速提升，終于在2006年之后，便再也沒有人下得過電腦了。自此，人類在棋類游戲中的堡壘，僅剩圍棋一座。

為什么是圍棋而不是象棋，也不是陸戰(zhàn)棋?圍棋到底有何特別之處?

一點(diǎn)是圍棋有著極為豐富的下法，隨著中國古代圍棋在四個(gè)角星位放四個(gè)棋子限制局面的“座子制”被廢除，今日圍棋19×19的棋盤上沒有任何的限制，不似象棋有著規(guī)定的排兵布陣，棋子也不需受到只能在某個(gè)特定的方向走特定的步數(shù)之類的限制，只要你喜歡(以及對(duì)手配合)，甚至用棋子拼幾個(gè)字母打廣告照樣在規(guī)則準(zhǔn)許范圍之內(nèi)。

極為自由的下法帶來的是恐怖的局面可能性：只從明面上看，就有3的361次方種下法，遠(yuǎn)超宇宙的原子總數(shù)，再加上打劫和提子等技巧，圍棋的局面走勢(shì)可以用“無限”來形容，因此圍棋素有“千古無同局”的美譽(yù)，這也就讓“算出所有的局勢(shì)并挑選最佳路線”的計(jì)算機(jī)下棋方式在圍棋面前一籌莫展。

中國古代圍棋中的“座子制”

當(dāng)然，電腦下棋也往往不會(huì)將所有可能的路徑列出來再挑選，這樣太浪費(fèi)機(jī)能和時(shí)間了。一般會(huì)用算法排除掉明顯沒用的路線，在剩下的可能性中選擇最佳方式走棋。這里就體現(xiàn)出圍棋的另一個(gè)精巧之處：一般的棋類只要干掉對(duì)方的國王/將軍/司令之類，因而可以輕松排除掉無用的路線，圍棋卻沒有明確的目標(biāo)和結(jié)構(gòu)，一子之差就能讓盤面上的局勢(shì)天翻地覆：每一步棋都可能是有用的，導(dǎo)致不僅每一步棋都有著數(shù)百種下法，而且還無法排除，計(jì)算機(jī)也就遲遲不能攻占這人類智慧的最后堡壘。

但是，既然人可以下好圍棋，也就證明，圍棋雖然沒什么易于直接總結(jié)的規(guī)則，但冥冥之中還是有規(guī)律可循，只是不容易總結(jié)而已。于是研究人員就想到，只要讓計(jì)算機(jī)也學(xué)會(huì)人類的思考方式，照樣可以下得好。DeepMind 的研究人員就祭出了“深度學(xué)習(xí)”技術(shù)，即是讓計(jì)算機(jī)用人類的方式來下棋，在不斷下棋中評(píng)估局面，拋棄那些送子的自殺式下法，同時(shí)估計(jì)在未來20步中下在哪里取得優(yōu)勢(shì)的概率更高，每局下來都可以積累更多的經(jīng)驗(yàn)，從而讓自身的概率估計(jì)更為精準(zhǔn)。

AlphaGo對(duì)局勢(shì)的估計(jì)

在經(jīng)過無數(shù)高手棋局的訓(xùn)練和自己跟自己對(duì)弈500萬局之后，AlphaGo 的實(shí)力就達(dá)到了職業(yè)水準(zhǔn)，而且還可以進(jìn)一步提高。

今日的智能

啊，好像是扯得有點(diǎn)遠(yuǎn)了，我也不是來播報(bào)新聞的，既然是游戲網(wǎng)站，那接下來就該說一下這項(xiàng)技術(shù)除了用來下圍棋以外，還能跟游戲扯上什么關(guān)系。

要理解這點(diǎn)，我們就首先要知道現(xiàn)在我們玩的游戲里的AI是什么機(jī)制，這樣我們才能知道深度神經(jīng)網(wǎng)絡(luò)能讓AI發(fā)生什么改變。今天我們玩的電子游戲，無論是星際2、War3、老滾4、文明5，不管游戲方式再千奇百怪，其AI用的都是同一套行為邏輯——“有限狀態(tài)機(jī)”。

聽起來很高大上的樣子，不過實(shí)際上我們也用不著深入剖析，簡單而言，就是讓游戲AI對(duì)于一定的情況選擇一種應(yīng)對(duì)方式。比方說，LOL和Dota的電腦AI會(huì)設(shè)置為，當(dāng)其血量低于玩家一套技能傷害時(shí)就會(huì)自動(dòng)往后退或者回城，F(xiàn)IFA的AI會(huì)自動(dòng)傳球給當(dāng)前狀況下得分成功率最大的球員。如果說一場(chǎng)游戲里可能出現(xiàn)的所有狀況就是一張?jiān)嚲淼念}庫，那么有限狀態(tài)機(jī)就是參考答案庫，一旦出現(xiàn)某種“題型”，就挑選出相應(yīng)的“答案”。雖然實(shí)際情況復(fù)雜得多，要用上很多層的狀態(tài)機(jī)環(huán)環(huán)相扣，不過究其本質(zhì)，都是這個(gè)機(jī)制。

這套機(jī)制的確實(shí)用又好用，以至于電子游戲業(yè)界數(shù)十年如一日地堅(jiān)持使用，一路欣欣向榮，在這套原理的基礎(chǔ)上發(fā)展出更多更好更復(fù)雜的AI。然而，盛世之下也潛伏著危機(jī)，有限狀態(tài)機(jī)始終有幾個(gè)與生俱來的缺陷并限制了游戲內(nèi)容的發(fā)展。

查看更多新聞

1 2 下一頁第頁確定

標(biāo)簽：動(dòng)作冒險(xiǎn)

http://m.4uh5.cn/article/342877復(fù)制本文地址

閱讀本文后，您的心情是：（選擇后可查看結(jié)果）

惡心

憤怒

強(qiáng)贊

感動(dòng)

路過

無聊

雷囧