發布日期:2022-07-15 點擊率:32
何搏飛表示,我們大腦所接收80%的信息都源自視覺,同時大腦中接近一千億個神經元,絕大多數只做一件事情,就是處理我們的視覺信息。
為什么我們是一步步地從文字,發展到聲音,最后才到動態視頻?何搏飛認為,就是因為動態的視覺信息是最豐富,但也是最復雜的。
那么機器有沒有視覺?何搏飛表示,實際上在很多領域,機器視覺已經在改變我們的生活,他舉了微軟體感游戲的例子說,當我們做各種動作時,它會理解我們的行為,配合多媒體的體驗,讓我們有種互動和豐富的感受。
機器有了視覺之后會產生什么影響?何搏飛分享了幾個案例來闡述,機器視覺可以給予我們一個更加互動、更加健康、更加便捷的世界。
格靈深瞳創立一年多就拿到了兩輪融資,去年獲得了紅杉資本數千萬美元的A輪融資。比爾·蓋茨訪華時還專門造訪了格靈深瞳。何搏飛畢業于美國斯坦福大學,他和聯合創始人趙勇的愿景是將格靈深瞳打造成一家千億級的人工智能公司。
以下是何搏飛的演講實錄:
大家好!“Vision”這個單詞在任何一本英漢詞典里,第一條解釋就是視覺,視覺是什么?視覺是一種感知能力。我們人身上一共有五種感知能力,包括視覺、聽覺、嗅覺、味覺和觸覺。
余凱博士剛才講到人工智能的本質就是自主學習的能力。我們人的大腦之所以這么聰明,這么復雜,這么高級,就是因為我們人可以自主地學習,而自主學習能力主要源自這五種感知能力。
這五種感知能力中,我們大腦所接收的80%的信息都來自視覺,我問大家一個問題,如果我們不得不放棄四種感知能力,只保留一種,你會保留哪一種?
我相信在座的很多人答案跟我一樣,你會保留視覺信息。大家有沒有想過為什么?我們都知道有這樣一個數據,我們的大腦分成兩半,左腦和右腦,左腦是理性,右腦是感性的,是有創造力的。
還有一個數據可能大家并不知道,我們大腦有接近一千億個神經元,絕大多數只做一件事情,就是處理我們的視覺信息。大家想想當我們休息時,會做什么,通常會閉上我們的眼睛,所以每一天當我們的眼睛睜開時我們在主動或者被動地接受大量的復雜信息。
大家知道,我們人類主要是通過學習來成長,智慧也是在這樣的過程中提高。那么分享知識就非常重要。從幾千年前開始我們人類就把文字編輯成書。但文字承載的信息量是有限的,我們還希望它更加的豐富多彩。
所以到了100多年前有了電話,我們可以遠距離的讓聽到我們的聲音,后來我們就了廣播,終于幾十年前我們有了電視,到了十年前最近這段時間大家知道在網絡帶寬成為可能的情況下視頻網站才成為可能。
為什么從文字,到聲音,到視頻,一步一步到幾千年前,到最近幾年,才能隨時隨地的分享動態的畫面視頻?沒有其他原因,就是因為動態的視覺信息是最豐富的,也是最復雜的。
當我們討論人工智能,討論計算機、機器是否有學習能力時,我們首先要問自己一個問題,那就是機器有視覺嗎?我必須要這樣講,在今天絕大多數場合下,對我們絕大多數人來說,機器是沒有視覺的,機器是瞎子。
你們可能會反對我,會說我在用手機拍照,我的電腦上也有攝像頭,大街小巷有這么多攝像頭,難道它們不都是機器的眼睛嗎?難道這不是視覺嗎?但是大家想一想,當我們拍了這些照片視頻,最終計算機看懂這些視頻照片了嗎?
我們把它存下來,不管是單反相機、攝像機,拍完以后,最終還是要人處理這些信息。為什么?因為在絕大多數情況下,電腦是無法處理這種復雜信息的。
機器視覺給予我們一個更加互動的世界
但今天我也要告訴大家,實際上在很多領域,機器視覺已經在改變我們的生活。當我說到這兒時,可能很多人馬上會想到的第一件事情是微軟的體感游戲,當你做各種動作時它會理解你的行為,配合多媒體的體驗,你會感受到互動和豐富的感受。
所以,當機器有視覺的時候,首先帶給我們的就是一個更加互動的世界。在這兒我給大家看一段特別有意思的視頻,我的朋友黃沙,就用微軟的這個傳感器拍了一段動感的視頻。
我們知道,好萊塢電影和美劇在制作過程中會有一個綠色的背景,它就是做一件事情,就是把人和背景區分開,這樣后期制作時,就可以把綠色背景換成任何的場景,但有了三維計算機視覺,任何在座的每個人都能超越好萊塢特效師,更好地完成精彩的動畫,這只是個簡單的例子。
機器視覺帶給我們一個更加健康的世界
當機器有了視覺以后,還會給我們帶來一個更加健康的世界。舉個例子,在我們做心臟手術時有一件特別痛苦的事。大家知道,人的心臟是唯一不能夠被麻醉藥麻痹使它靜止的器官,只要人活著心臟就會不停的跳動,在跳動的心臟上做手術難度是非常大的。
所以,很多時候當要對心臟做手術的時候,醫生做的第一件事情就是通過醫學的手段讓心臟停止跳動,然后用最短的時間做完手術再讓心臟重新起搏,但將有30%心臟將會永遠不能再跳動起來。但如果有一種技術使醫生在跳動的心臟上做手術將會挽救很多人的人。
大家想一下,人的心臟跳動是非常有規律的,如果手術刀可以跟心臟同頻率振動,醫生通過攝像頭看到的就是相對靜止的心臟,那時動手術就相當于在靜止的心臟上做手術。
這個畫面上,白色的網格就是要做手術的區域,通過計算機深度視覺,已經把它穩定下來了。心臟手術很多人看了可能會不舒服,所以我們做了這樣一個演示,醫生給葡萄剝皮,這在國外已經應用了,我相信不會很久中國也會應用。
機器視覺創造一個更加便捷的世界
剛才余凱博士也談到了自動駕駛汽車,大家想一想,當自動駕駛這一天來臨時,我們將有一個更加便捷的世界。各位極客可能對剛剛過去的2015美國電子消費展CES有更深刻的印象。
除了智能硬件以外,應該說2015年今年是自動駕駛的元年。奔馳、寶馬、尼桑,幾乎所有的車廠都在今年推出了自己自動駕駛汽車的計劃,很多車廠宣稱在2020年,就是五年以后,他們的自動駕駛汽車就會跑在大街小巷。
我在這里有個判斷,我個人覺得,自動駕駛汽車,將會是第一個真正被人類大規模使用,且對人類生活產生顛覆性影響,真正意義上的機器人。因為當汽車可以自動駕駛時,它對我們來說才是一個真正智能,不需要人為干預的機器人。
大家可能都看到過左邊這輛汽車,它其實就是Google的無人駕駛汽車。Google應該說是到現在為止全世界第一個讓自動駕駛汽車在人類的公路上行駛超過100萬公里的公司。
我曾經跟Google無人駕駛汽車負責人聊過,當時我開了個玩笑,你們Google自動駕駛汽車業只敢在美國這樣的城市測試,敢來北京測嗎?他當時告訴我,無人駕駛汽車這件事情要成功,最大的障礙和挑戰只有一個,那就是計算機視覺。
大家想一想,控制汽車的方向盤、油門、剎車,這些事情簡單的傳感技術就可以解決,甚至如果是一個純電動車的話,可能一個軟件就可以解決。告訴汽車,從A到B你的目的地在哪,這件事情GPS就可以解決。
但面對路上發生的一切,可能很多人也學過,所以大家都知道,特別是現在自動擋的車,要把車開起來非常容易,開車真正難的是如何應對路上各種復雜的狀況,而這些需要的就是視覺的感知能力。我們想一想,如果沒有視覺感知,你如何知道前面有行人在穿越馬路,必須要依靠計算機視覺。
大家可能也知道,格靈深瞳是把計算機視覺技術應用在監控領域的公司,為什么到處有這么多攝像頭,連接到監控中心,有很多人盯著它看,為什么還需要計算機視覺,我們需要人工智能做這么多事兒嗎?
我在這里給大家假象一個場景,如果讓你在你自己家里,你在看電視,比如時下特別熱門的一部電視劇,在很認真的看,這時又把ipad擺在前面觀看意甲聯賽,同時你的朋友還在給你發微信,三個屏幕。
我跟你打個賭,給你10分鐘時間,10分鐘以后我隨機考你這三個屏幕的內容,我相信在座很少有人跟我賭,為什么?因為三個屏幕展示的東西動態畫面的時候,對人來說信息太復雜了。
但想一想,安保中心監控室面對的是這樣一個屏幕,我看了很多美劇電影,有那么多高端技術,我可以告訴大家,我曾經參觀過拉斯維加斯所有大賭場后臺的監控中心,跟中國任何一家普通銀行的監控中心沒有任何區別,都是這樣一個大屏幕,幾個人盯著這個屏幕在看。
我自己在監控中心呆過可能超過100個小時,我當時去的時候正好是世界杯期間,保安們大多數在玩兒手機、看球賽,但相信我,如果讓你們去,這不是職業道德的問題,人類是有極限的,當人盯著這樣一個大屏幕看,超過10分鐘時,說實話你其實跟什么都沒看一樣。
所以大家想象一下,現在屏幕上所顯示的一共是10個大屏,每個大屏16宮格,也就是160路視頻。北京機場就有幾萬路視頻,也就是說,如果把每一路視頻放一分鐘把這些視頻輪一遍,就需要5萬個小時。所以,發生事情能看到嗎?
每時每刻,每一路視頻我們都把它存下來,最后我們當證據用。是的,但你想一想,這么多路視頻無時不刻都在存,全世界每賣出兩塊視頻,其中有一塊就是賣給安防監控視頻的。當有這樣海量數據的時候,人類如何處理?
所以大家想象一下,如果我們可以把每個攝象頭,都換成一個智慧像小機器人一樣幫我們盯著,當發生問題的時候就可以第一時間預警。所以,當我們的機器有了視覺的時候,我相信大家都能夠看到,我們的世界會變得更好。
但是當世界變得更好時,我們人會變成什么樣呢?可能你會說人會變得更高、更快、更強,那是奧林匹克精神,其實在我看來,我個人覺得我們人的愿望,其實一開始就跟更高、更快、更強是相反的,我們有時候經常說越是說什么越是代表不具備什么。
我自己有個觀點,我總覺得,人類從一開始所有技術進步的唯一源動力,就是把自己解放出來,或者說的更直白一點,就是讓自己變得更懶。
今天有很多服務都可以上門,O2O上門美甲、洗車,所有事情都是把人類解放出來。每次重大的技術革命,比如17世紀的蒸汽機革命,19世紀的電力革命,近代的信息革命。工業革命發生以后,機器可以開始取代人類做一些簡單的體力勞動,我們的四肢被解放出來,去到一個地方不再需要走路去,可以坐車去。
隨著電力革命、信息革命,到今天大腦一部分功能都已經被計算機所替代。比如我們要去做運算的時候,我們可以用計算器,電腦、手機也可以幫助我們記憶、存儲。
但是我覺得,這就是為什么我總覺得,人工智能這件事情一定會實現,因為從潛意識里,人一定會不懈的朝著這個方向努力,因為對人來說,最終最難被解放的兩個器官,一個是眼睛、一個是大腦。
也曾經有人問我說,大家可能也都知道,馬斯特和霍金都對人工智能發表了很多威脅論,人工智能成熟以后是不是有很多人會失業?
我對這個問題是這么看的。技術變革時,都會迫使我們做更有創造力、更高級的事情。舉個例子,比如農民工進城,過去做農活這是個相對來說更加簡單的體力勞動,而當這樣的體力勞動被機械化所替代時,我們的農民工來到城里,他們做了泥瓦匠、水電工、月嫂,他們掙的錢比我們很多人都多。
而未來人工智能替代人做更多事情時,人會逼迫做更高級的事情。而人能做什么呢?去交流、去分享、去進步、最終去進化。所以人做的所有事情,最終就是想實現一件事情,那就是人工智能,把我們的大腦徹底解放出來,讓人自由自在地做有創造性的事。
今天我們這個論壇的主題叫X論壇,“Vision”這個詞的第二條解釋是“遠見”,也就是在未看見的時候,就能通過想象力看到未來。今天我希望大家在一起分享,能跟我一樣,看見未來其實就在我們眼前。謝謝!