close

360首席科學傢顏水成:AlphaGo是這樣練功的

360首席科學傢顏水成

新浪科技訊 3月12日下午消息,人機圍棋對決第三場今日落下帷幕,3:0!谷歌圍棋程序AlphaGo再下一城,雖然後面還有兩場比賽,但已在這次舉世關註的人機對決中鎖定勝局。

第三場直播中,新浪科技邀請到奇虎360首席科學傢、人工智能研究院院長顏水成教授,顏教授在直播中對AlphaGo、人工智能等進行瞭深入淺出的分析講解。

顏水成教授在直播評述中主要就AlphaGo的計算力、AlphaGo如何“練武功”、AlphaGo的三個網絡系統,和AlphaGo的開源問題及未來意義等發表瞭看法,還談到瞭為什麼這次比賽賽制不公平的原因。(李根)

以下為360首席科學傢、人工智能研究院院長顏水成教授的發言實錄整理:

分析AlphaGo的計算力變化

從算法的角度來講,比賽開始階段,機器跟人相比,它的優勢不會特別大,因為它初期的計算不是很精準,但越到後面的話機器的計算的精準度相對變得更高,在前面如果沒有積累很好的優勢,後面就可能比較困難瞭。

從另外一個層面來看,大傢有一些討論,AIphaGo是用計算機集群的方式,並不是一個單線程,或者認為是一群人跟李世石一個人在PK,一個有趣的討論是說,如果我們把中國跟韓國還有全世界高水平的棋手全部聚在一起跟AIphaGo一起拼的話,是不是有贏的可能?

開局之前,我跟連笑有一些討論,我們在討論,其實機器AIphaGo今天下完棋,它後面可以繼續學習,不用休息。同時我也問他,我們人的話,從一個段級升到另外一個段級到底要花多長時間。我們不能認為AlphaGo就靜止在那,就不會往前走瞭,它還有很多可以提升的地方,比如像深度學習新的模型,優化的更好策略可以讓它的預測更加準確並且快速。另外一方面,我們可以投入更多計算機的資源,讓它們可以速度變快,它的段級的增長速度就有可能是非常快的。

揭秘AlphaGo如何“練武功”

AlphaGo有自我學習的能力。回到整個AIphaGo的算法體系,它的學習過程是什麼樣的?其實我們沒有必要一定用圍棋的觀念來解說這個事情,圍棋很多人不是特別懂,AIphaGo的學習過程非常像一個不懂武術的人跟一個武術大師去學習的過程。

學習分兩步,第一步大師跟他說,你每一次出招時候一定要有攻擊性,這個有點像局部的模型,就像在AlphaGo裡面叫做策略網絡的部分,那麼還有一個就是說,他的師傅會教他,其實你每一次出招的時候,要考慮到對手會拆招,你再還招,依次下去,你要考慮一下,從長遠角度來說你這個比武的過程中是不是有贏的概率,在AIphaGo裡面這個可以理解為叫做值網絡。這是第一步,因為師傅跟徒弟之間的交往過程是有限的,同樣我們能夠從專傢的手裡拿到棋譜也是比較有限的。

第二步是學生互相練習,或者一個人坐在那個地方左右手互搏,但是這個左右互搏的根基是他已經從師傅那裡已經學到一些東西瞭,也就是有瞭一個不錯的模型瞭,那麼在左右互搏的時候,根據原來師傅教的做,用同樣的辦法,右手應該這麼打,左手應該那麼打,打來打去最終有一個方輸或者贏。這個東西拿過來,幫助這個學武的人去提升他的經驗值,他的比武的能力就會增強。

在AIphaGo裡面把這一步叫做增強學習。這個AIphaGo跟個人左右手互博的過程有優勢。人在左右手互搏的時候可能要花很長的時間,這個AIphaGo它就比較容易,它可以在電腦裡面模擬,產生新的棋局,這樣收集到的經驗和樣本非常多,所以就會自我逐步增強自己的能力。

假設不學棋譜的AlphaGo

這個東西,首先我的理解是這樣的,一方面來說是有這個可能性,是有一定的概率。在它左右互搏的時候,這個時候基本都是隨機的,如果它比較幸運的話能夠在一定的時間范圍內能夠積累出一些樣本,這些樣本有一個共同的模式的話,就可以提煉出來,這些提煉出來的模式又可以去指導下一步怎麼左右手互搏,這種學習的可能性確實是就存在的。

但是另外一個方面這個是非常困難的,我們剛才說像圍棋的話,存在的可能性可認為有361的階乘那麼多種,應該是10的700多次方,那麼在這麼一個空間裡面,你到底有多大的可能性能夠在有限的樣本裡面,存在一些公共的模式,這個不是說沒有,而是說它的概率很低,那就有可能雖然有很多的滴雞精團購計算能力,在短時間內,你也是學不出來,所以總結起來說,概率上是存在,但是真正實施的時候,可能會非常非常的困難。

早期有不少AI不是特別強的程序,有瞭這些程序的話 (這些程序不是通過棋譜學出來的,通過人的知識直接編出來的), AIphaGo跟這些程序PK,PK過程中可以積累樣本,這種可能性應該更高一些。

其實我們可以從另外的角度想這個問題,高水平的棋手回溯到歷史上,很早很早以前,當時人的能力並不是非常強,他們是怎麼開始圍棋,是怎麼逐步提升能力的。也許可以指導AlphaGo做類似的事情。

分析AlphaGo的三個網絡系統

AIphaGo裡有三個網絡,網絡起的作用是不是一樣的。

第一個網絡,根據前面這些棋譜或者自我對博的過程中的棋譜,根據當前這個棋面的狀況判斷下一步專業棋手經常去的位置在哪些地方,這是一個局部的觀點,這樣的話就沒有太多地考慮假設真的把棋局走完後會是什麼樣子,這是策略網絡。

另外一個是值網絡,這個網絡是在當前的情況下假設去模擬走完之後勝算的概率是多少。最後一個是rollout網絡,它用來快速模擬走子過程。裡面有一些隨機性,它采用瞭很多采樣,最後這些采樣結果合在一起算出真的走下去的勝算概率是多少,這兩個概率融合在一起來判斷當前這個棋局,假設這個棋走完瞭它勝算的概率是多少。這部分信息和策略網絡信息合在一塊給出下一步應該怎麼走。

策略網絡的話,其實是一種直覺,就是說下面一步怎麼走,這個值網絡的話,就是說我下完這步棋瞭,比如我把這個棋放上去瞭,當前這個棋局,你感覺從整體上來說以後的發展趨勢來說整個贏的勝算有多大。Rollout網絡是非常快的,它直接就是到瞭一個節點上的話,直接真的往下搜過去,每一次都有不確定性,它有一個概率比如說我有0.5走這邊,0.2走這兒,它真的按照這個概率去走,走很多次,比如說走一千次,這一千次就可以看出來它是一個什麼勝算,這個概率就可以認為如果真的走下去勝算是什麼概率。這個概率和 值網絡的概率合在一起,就變成把這個子放在這裡,整體棋局贏的概率是多大,兩個的作用是不一樣的。一個是粗暴式的搜索,一個是前面的經驗算出來的一個值。

大傢比較不確定性的地方就是說在左右互搏的過程中,是不是能有新的招式學出來,這是大傢關心的問題,因為可能棋局基本上可以認為是無窮盡的,無論怎麼互搏的話,其實隻能得到非常有限的一些棋局的樣本。怎麼樣去獲取有效的棋局就變得非常關鍵瞭。

認為AlphaGo賽制不公平

這種比賽是不公平,因為AlphaGo用的是計算機的集群,有不同版本的AIphaGo,據我們得到的一些信息來看,最強的版本用瞭1920個CPU加上280個GPU。

這種計算力像一般的機房,一臺機器是4個GPU,相當於70臺比較強的GPU的機器在那兒,一個是16核的CPU的機器,比如插片機,100多臺。

這樣的計算力差不多可以支撐一個不錯的創業懷孕滴雞精公司。比如像做人工智能的創業公司,如果能達到這個級別的計算機性能,已經算不錯瞭。

在AlphaGo的比賽過程中,要想縮短計算的時間,可以用更多的CPU和GPU去做計算,搜索算法是可以做並行計算的,有一個叫做采樣的東西,采樣是1000個,每個都是相互獨立的,用1000個CPU去采樣的話相當於算一次時間。如雞精何時喝果把采樣次數增加,就可能預測更準,這個時候就可以用更多的CPU或者GPU的資源去做這樣的事情,這樣得到的解就會更好。總的來說,它要花多長時間算每一步,純粹是計算資源和精度上的平衡。

從人工智能算法角兒童雞精推薦度來說,一千個CPU就是一大堆人合在一起,最終它們一起把這盤棋下贏。這就有點類似一堆人在群毆李世石

評價AlphaGo開源的影響

如果真的算法開源的話,完全就有可能別人拿這個程序自己設計出來新的一個AIphaGo出來,而且在技術上可以往前進一步的更新迭代。

希望AIphaGo能夠公佈一些它的內部數據,這些數據可能也會幫助棋手瞭解人工智能它在下棋的時候是怎麼想的,這個數據很有意思,展現的方式不是展現出走到最後一步是什麼樣子,而是展現出一棵子樹,展示我們有多大的概率從現在的子一步一步到葉節點,以及這種走法的勝算是多少。

如果要復盤的話,這些信息可以幫助去解釋他為什麼要走這一步。

評價單機版AlphaGo

現在AlphaGo單機版已經存在瞭,棋力還是不錯的,普通人跟他下棋的話,他還是蠻強的。開始的時候我們談過AIphaGo本身的算法在後面還有很多可以提升的地方,可以期待速度還可以加快。完全有可能再過一些時間單機版也有非常強的性能。極端情況下可以做成聯網式的,隻要有server就可以。

人工智能角度看“打劫”

對於打劫這個事,後來我們也仔細分析瞭一下,從算法角度來說的話,這個算法是不是有可能把打劫這個事情考慮進去?後來仔細看瞭一下其實還是有可能的,所以也許它現在的系統裡面已經一定程度上的處理這個情況瞭。

AlphaGo3:0戰勝李世石的意義

這盤棋3:0,之後我們可能期待有三個事情發生,第一個是外面的人都會期待AIphaGo開源,這些棋手可以更好地分析它算得有多麼厲害,跟人算的有沒有相似性。另一方面,這次AI能夠在圍棋上戰勝人類,大傢對人工智能的技術會更加有信心,可以期待人工智能在工業上有更多的產品流行起來。另外會出現一個情況,說不定有很多人不服輸,也是算法設計的高手,可能想跟AIphaGo進行PK,算法跟算法。

人機大戰的意義

這次人機大戰帶來的效益並不隻是圍棋這麼一個領域。圍棋單點把浪潮沖得很高,浪潮往下走的話波浪一下就擴展到人們生活的方方面面,開始的時候說過大傢會因為這件事情認為其實人工智能技術的春天已經到瞭,人工智能既然能夠戰勝人,在圍棋上戰勝人類高級的專傢,他在生活的方方面面也許也能做得很好。比如開車這件事情,並不需要非常專業的人就可以開車,這件事情有沒有可能人工智能比人做的更好呢。

還有其他的方方面面,現在比較流行的物聯網產品,物聯網的產品其實很多就是基於人工智能的技術,人工智能可能有兩種形式,一種是把它放在網上放在雲上,還有一種是直接放在人工智能產品本地端。因為這件事情可能會讓更多的人對這些人工智能的產品產生興趣,以前隻是覺得那個玩意兒隻是聽說還可以,也沒有聽說會怎麼樣,現在更多的人會對這些產品感興趣,帶來的社會效應是完全不可估量的。


2/3美國人認為機器人會搶走飯碗 2/3美國人認為機器人會搶走飯碗 約有三分之二的美國人預計,未來半個世紀,機器人或電腦將會取代很多目前由人類從事的工作——但不包括他們自己的工作。 更多精彩>


耳道當 指紋 ?耳機辨別用戶身份 耳道當 指紋 ?耳機辨別用戶身份 除指紋及虹膜外,耳朵在未來也可能成為辨認身份的特征。日本一傢公司研發瞭一款耳機,能夠辨認使用者的身份。 更多精彩>


中國“天眼”下月安裝完畢 中國“天眼”下月安裝完畢 截至3月8日,正在貴州省平塘縣建設的世界最大單口徑射電望遠鏡——500米口徑球面射電望遠鏡(FAST),已完成3492塊反射面面板安裝,完成比例達78.47%。 更多精彩>

滴雞精比較
為什麼阿法狗不敢挑戰麻將? 為什麼阿法狗不敢挑戰麻將? 從變化數量上看,麻將和圍棋還是有差距的。數據顯示,麻將的實際變化是1736978種,遠遠小於10的172次方。 更多精彩>

台灣電動床工廠 電動床

台灣電動床工廠 電動床

AUGI SPORTS|重機車靴|重機車靴推薦|重機專用車靴|重機防摔鞋|重機防摔鞋推薦|重機防摔鞋

AUGI SPORTS|augisports|racing boots|urban boots|motorcycle boots

arrow
arrow

    lvf809d9t6 發表在 痞客邦 留言(0) 人氣()