工控網(wǎng)首頁
>

新聞中心

>

業(yè)界動(dòng)態(tài)

>

機(jī)器視覺離消費(fèi)市場(chǎng)有多遠(yuǎn)?

機(jī)器視覺離消費(fèi)市場(chǎng)有多遠(yuǎn)?

 

   作為人工智能的兩個(gè)分支,計(jì)算機(jī)視覺與機(jī)器視覺在近年都取得了長足的進(jìn)步。前者自2010年以來,隨著深度學(xué)習(xí)再度流行并用于目標(biāo)識(shí)別,在人臉識(shí)別等方面已經(jīng)超過了人類;而后者在工業(yè)應(yīng)用方面,也有不少突破性的應(yīng)用。


   但是,在消費(fèi)級(jí)市場(chǎng)方面,計(jì)算機(jī)視覺與機(jī)器視覺的進(jìn)展并不大。不少人對(duì)于計(jì)算機(jī)視覺與機(jī)器視覺在消費(fèi)級(jí)市場(chǎng)能有多大實(shí)質(zhì)性地應(yīng)用,存在深深地?fù)?dān)憂。


▌?dòng)?jì)算機(jī)視覺與機(jī)器視覺


   首先,我們有必要理清楚機(jī)器視覺與計(jì)算機(jī)視覺之間的關(guān)系。從學(xué)科分類上, 二者都被認(rèn)為是 Artificial Intelligence 下屬科目,不過計(jì)算機(jī)視覺偏軟件,通過算法對(duì)圖像進(jìn)行識(shí)別分析,而機(jī)器視覺軟硬件都包括(采集設(shè)備,光源,鏡頭,控制,機(jī)構(gòu),算法等),指的是系統(tǒng),更偏實(shí)際應(yīng)用。簡單的說,我們可以認(rèn)為計(jì)算機(jī)視覺是研究“讓機(jī)器怎么看”的科學(xué),而機(jī)器視覺是研究“看了之后怎么用”的科學(xué)。


   計(jì)算機(jī)視覺與機(jī)器視覺的問題是,前者太學(xué)術(shù),后者太工業(yè),因而一直以來在消費(fèi)級(jí)市場(chǎng)缺乏好的產(chǎn)品。圖漾創(chuàng)始人費(fèi)浙平向雷鋒網(wǎng)記者說,機(jī)器視覺的很多核心技術(shù)和原理多年前就比較成熟了,近年來的進(jìn)展主要集中在工程化,比如GPU和視覺計(jì)算加速器的出現(xiàn)解決了計(jì)算量問題。但與此同時(shí),要想把視覺技術(shù)實(shí)現(xiàn)真正產(chǎn)品落地,中間還有不少其他問題,他們也在摸索中。


   視覺技術(shù)在消費(fèi)級(jí)市場(chǎng)最早的嘗試是微軟的Kinect。2010年,微軟聯(lián)合深度攝像頭技術(shù)方案提供方PrimeSense正式對(duì)外推出Kinect,利用骨骼捕捉技術(shù),Kinect可以捕捉游戲玩家的骨骼動(dòng)作,從而讓游戲玩家可以不接觸屏幕即可玩游戲。在Kinect之后,華碩、Intel、谷歌以及蘋果也相繼在深度攝像頭的應(yīng)用場(chǎng)景上跟進(jìn),一切都看起來往好的方向發(fā)展。


   但深度攝像頭作為獨(dú)立產(chǎn)品,市場(chǎng)化難度頗大。例如Intel在13年在開發(fā)者會(huì)議上宣布,將推出自己的微型深度感知模塊,華碩、戴爾、惠普、聯(lián)想等多家 PC廠家都將從2014年下半年開始在產(chǎn)品線中部署這款深度感知模塊。而兩年多過去了,曾經(jīng)預(yù)言的集成深度攝像頭的產(chǎn)品遲遲未見。


   那么,處于計(jì)算機(jī)視覺和機(jī)器視覺交叉部分的深度攝像頭,應(yīng)該如何打開消費(fèi)級(jí)市場(chǎng)?


▌深度攝像的瓶頸


   深度攝像頭也稱RGBD攝像頭。我們常用的攝像頭是RGB攝像頭,單一個(gè)攝像頭便能感知彩色可見光信息(Red、Green、Blue),而RGBD攝像頭是在我們常見的RGB攝像頭基礎(chǔ)上,增加了深度信息。


   深度攝像頭獲取圖像方式分為主動(dòng)式獲取和被動(dòng)式獲取。二者的主要區(qū)別集中在觀測(cè)傳感器是否主動(dòng)向環(huán)境發(fā)出探測(cè)光。


   如大疆精靈4上的雙目視覺便是被動(dòng)式獲取深度圖像,其技術(shù)特點(diǎn)是攝像頭不主動(dòng)向環(huán)境中發(fā)射能量,而通過兩個(gè)以上攝像頭計(jì)算特征點(diǎn)的坐標(biāo)差得出感知環(huán)境中現(xiàn)有能力得到信息,這一方式與人類雙眼獲得時(shí)差的方式最為相近,但最大的弊端在于限于目前的技術(shù),目前的識(shí)別精度還不高,過于依賴光線,而且無法處理特征不明顯的場(chǎng)景,所以強(qiáng)光暗光都會(huì)導(dǎo)致深度計(jì)算的失效。


   主動(dòng)式獲取所采用的方式則是從蝙蝠等生物上尋找靈感,通過主動(dòng)發(fā)射探測(cè)光通過計(jì)算獲取深度圖像。這當(dāng)中又分為三類:“RF-modulated light sources with phase detector”、“Range gated imagers”、“Direct Time-of-Flight imagers”,如Kinect一代所采用的PrimeSense就屬于第二類,隨著蘋果收購PrimeSense,微軟也在Kinect二代中改為微軟自有技術(shù),一般認(rèn)為二代采用的是直接TOF的技術(shù)。


   以Kinect的深度攝像頭為例,它包含了一個(gè)紅外投射器、一個(gè)RGB攝影頭和一個(gè)紅外感應(yīng)器,由于深度攝像頭自帶光源,而且是不可見的紅外光,對(duì)我們的生活無任何影響。似乎深度攝像頭獲取景深信息就已經(jīng)完美了,但也有他的弊端。由于是主動(dòng)方式,兩個(gè)同波段紅外光會(huì)出現(xiàn)干涉,導(dǎo)致兩臺(tái)一樣的深度攝像頭沒有辦法一起使用,而且受發(fā)射功率的影響,檢測(cè)距離也會(huì)受到很大影響。


   市面上常見的深度攝像頭,Kinect距離最遠(yuǎn),但也需要最高達(dá)到12W的用電供給,拖一根供電線很是累贅。同時(shí),深度攝像頭還難以應(yīng)用于戶外,因?yàn)殛柟庵幸灿屑t外成分,會(huì)對(duì)主動(dòng)紅外光部分造成干擾。紅外光對(duì)于玻璃情景,也無計(jì)可施,出現(xiàn)無法探測(cè)距離的情況。


Kinect獲取的深度圖像


▌艱難中的嘗試


   Kinect一代售罄一空之后,對(duì)Kinect二代的綁定更加嚴(yán)厲,這更加抑制了銷售量;Leap Motion兩年前由于銷售情況不如預(yù)期,不得不解雇了 10% 的員工,切入虛擬現(xiàn)實(shí);蘋果收購了Primesense之后也不知道在盤算什么小九九,有分析稱蘋果打算放在iPhone上,這樣我們拍照時(shí)就能拍出3D效果的了;另一邊Intel則將目標(biāo)對(duì)準(zhǔn)了機(jī)器人無人機(jī),比如小米的機(jī)器人Segway Robot以及昊翔的無人機(jī)Typhooon H。


   機(jī)器人和無人機(jī)正是這兩年的大熱產(chǎn)品,看起來Intel可能會(huì)成為贏家,但因?yàn)镾egway Robot和Typhooon H都還未正式上市,因此效果如何還有待驗(yàn)證。也就是說,在消費(fèi)級(jí)市場(chǎng)還沒有一個(gè)特別成功的案例。


Intel CEO 科再奇展示應(yīng)用了RealSense模塊的的Typhooon H


   而在國內(nèi),Intel的RealSense出來之后,給了國內(nèi)一些創(chuàng)業(yè)者的信心,因此催生了一批相關(guān)的創(chuàng)業(yè)企業(yè),但目前成規(guī)模的應(yīng)用也寥寥無幾。


   奧比中光是其中最早實(shí)現(xiàn)量產(chǎn)的,其深度攝像頭與Kinect一樣,主要應(yīng)用在一些電視游戲上;與奧比中光有直接競(jìng)爭的是華捷艾米,只不過在產(chǎn)品量產(chǎn)上,華捷艾米的進(jìn)度慢了一步;圖漾的產(chǎn)品則正在準(zhǔn)備量產(chǎn)階段中,瞄準(zhǔn)的方向都是些行業(yè)應(yīng)用,似乎對(duì)消費(fèi)應(yīng)用還在觀望階段;格靈深瞳正在做應(yīng)用在自動(dòng)駕駛汽車上的深度攝像頭;速感看好機(jī)器人;


   機(jī)器人是目前熱門的應(yīng)用領(lǐng)域,目前機(jī)器人的路徑規(guī)劃大多使用雷達(dá),雷達(dá)雖然只能建立平面的深度圖像,但市場(chǎng)上已經(jīng)有公開產(chǎn)品,而且雷達(dá)的導(dǎo)航所用到的SLAM方案已經(jīng)比較成熟,而視覺導(dǎo)航的SLAM方案則還很少見,iRobot是較早開始在其掃地機(jī)器人上使用SLAM方案,不過也不到1年時(shí)間,因此想要在機(jī)器人上使用視覺避障與導(dǎo)航,看起來還需要一段時(shí)間。


▌要解決的問題有哪些


   那么,深度攝像頭消費(fèi)級(jí)應(yīng)用的春天何時(shí)才會(huì)到來?通過與相關(guān)從業(yè)人員的交流,我們感覺到深度攝像頭只是一個(gè)產(chǎn)業(yè)鏈中的一環(huán),當(dāng)他們?cè)谧錾疃葦z像頭的時(shí)候,相關(guān)的產(chǎn)業(yè)鏈上的工作還有很多,比如芯片,比如后續(xù)的圖像識(shí)別、視頻分析等等。以下是他們的回答:


格靈深瞳技術(shù)人員:


  “CV在消費(fèi)領(lǐng)域落地的其中一個(gè)障礙還是支持高性能運(yùn)算的低功耗低價(jià)位芯片選擇太少,有限的幾個(gè)也很難用。所以目前只能在工業(yè)領(lǐng)域,機(jī)器視覺本身是工業(yè)術(shù)語。在大消費(fèi)領(lǐng)域我們傾向于叫 embedded vision(嵌入式視覺)。這一類產(chǎn)品都是光、機(jī)、電、軟件、算法一體,跨多個(gè)專業(yè)領(lǐng)域,對(duì)系統(tǒng)集成的難度要求更高。”


uArm機(jī)械臂創(chuàng)始人鄧世韜:


   “主要是芯片的處理能力、紅外投影模組的分辨率提升。我自己更關(guān)注批量生產(chǎn)的穩(wěn)定性,因?yàn)檫@些零配件裝在一起,需要校正、標(biāo)定等,這是一個(gè)挺大的挑戰(zhàn),特別是對(duì)創(chuàng)業(yè)公司。”


速感科技創(chuàng)始人陳震:


   “單從機(jī)器人領(lǐng)域來看,機(jī)器視覺有很大一塊兒需要解決的問題是,目前在產(chǎn)業(yè)上游的核心傳感器和下游的機(jī)器人落地應(yīng)用中間存在一定的斷檔。也就是我們看到的國內(nèi)有廠商專門搞攝像頭,雷達(dá)這樣的元器件,專門有廠商做機(jī)器人整機(jī),但是幾乎沒有一個(gè)成熟的視覺技術(shù)方案可以把不同的傳感器串聯(lián)起來,做成一個(gè)可以商用的統(tǒng)一的方案。


   機(jī)器人是個(gè)復(fù)雜的系統(tǒng),機(jī)器視覺也是機(jī)器人上一個(gè)復(fù)雜的部件,通過現(xiàn)有的技術(shù),已經(jīng)證明單純的依靠單一的傳感器是無法在現(xiàn)有機(jī)器人上較好的實(shí)現(xiàn)各種功能的。


   也就是說,在機(jī)器人上,需要有雷達(dá)、超聲波、攝像頭、3D傳感器配合在一起,才可能實(shí)現(xiàn)各種復(fù)雜的功能和任務(wù)。


   而目前的機(jī)器人產(chǎn)業(yè)的現(xiàn)狀是,大家各自低頭研發(fā)自己的核心元件,使得下游的機(jī)器人廠商變成了機(jī)械式的集成商,從訊飛拿語音,從視頻門戶拿內(nèi)容,從深圳拿移動(dòng)底盤公模等等,視覺上面,也呈現(xiàn)出零星的發(fā)展態(tài)勢(shì)。


   我們認(rèn)為,機(jī)器人在接下來的發(fā)展中,必然會(huì)出現(xiàn)一兩套整體的標(biāo)準(zhǔn)集成方案,類似PC時(shí)代的windows操作系統(tǒng)和手機(jī)時(shí)代的IOS操作系統(tǒng)一樣?!?/p>


圖漾創(chuàng)始人費(fèi)浙平:


   “視覺計(jì)算處理器:由于視覺計(jì)算數(shù)據(jù)量和算法復(fù)雜度很高,通用的CPU、GPU和DSP處理器芯片都不夠強(qiáng)大,而專用ASIC又不夠靈活,最好需要有一個(gè)像GPU為Graphics進(jìn)行加速一樣,出現(xiàn)一種能為Vision提供強(qiáng)大計(jì)算能力的VPU芯片。


   3D攝像頭作為一種計(jì)算視覺用的光學(xué)產(chǎn)品,從演示到工程樣機(jī)、再從工程樣機(jī)到量產(chǎn)需要跨過的工程技術(shù)鴻溝比一般的拍攝類光學(xué)產(chǎn)品要大很多。比如光學(xué)器件的一致性篩選和光學(xué)參數(shù)的標(biāo)定校正,就是一個(gè)單獨(dú)的研究方向。


   產(chǎn)品的多樣性:作為一種光學(xué)產(chǎn)品,天然存在產(chǎn)品規(guī)格多樣性的問題,比如就最基礎(chǔ)的檢測(cè)距離指標(biāo)來說,就很難做到遠(yuǎn)近兼顧,必須在最大距離和最近盲區(qū)之間作出組合折衷。不同的應(yīng)用場(chǎng)景需要不同規(guī)格的產(chǎn)品進(jìn)行適配和優(yōu)化,因此對(duì)產(chǎn)品和技術(shù)方案的可伸縮性要求就很高,需要有多種不同規(guī)格的產(chǎn)品去滿足不同的應(yīng)用需求。


   人工智能:基于3D視覺數(shù)據(jù)一般都是為了實(shí)現(xiàn)更高級(jí)的識(shí)別和分析能力,也就是對(duì)3D視覺數(shù)據(jù)使用的能力要求也很高,需要更聰明的大腦來使用更全面的視覺數(shù)據(jù)?!?/p>


AICRobo智能機(jī)器人系統(tǒng)架構(gòu)師佘元博:


   “機(jī)器視覺在消費(fèi)市場(chǎng)落地,技術(shù)上是人工智能技術(shù)和機(jī)器人硬件有效融合的問題,有兩條路:


   1.自上而下。以人工智能技術(shù)應(yīng)用為主,要求機(jī)器人硬件盡可能符合人工智能技術(shù)工程化的條件。這意味著,產(chǎn)品得增加傳感器,以保障智能算法數(shù)據(jù)供給,得提高成本,有良好的計(jì)算資源讓復(fù)雜的智能算法“跑”起來。還意味著產(chǎn)品具有不穩(wěn)定性,人工智能技術(shù)以概率為主,產(chǎn)品功能依賴人工智能技術(shù)的比例越大,產(chǎn)品功能越不穩(wěn)定。機(jī)器視覺應(yīng)用里面,人臉檢測(cè)是很穩(wěn)定的,但遇到黑人也難打包票。


   2.自下而上。以機(jī)器人硬件為主,在功能上應(yīng)用人工智能技術(shù)輔助。這意味著,產(chǎn)品比較可靠,但同時(shí)也失去了一些智能化的特性。當(dāng)產(chǎn)品需要某些智能化的功能時(shí),要花費(fèi)大量人力針對(duì)某個(gè)“智能算法”做移植,將本來在不穩(wěn)定環(huán)境中運(yùn)行的算法應(yīng)用在可控、高效而且低成本的嵌入式環(huán)境中,這點(diǎn)讓很多專注理論算法的工程師頭疼。


   機(jī)器視覺技術(shù)落實(shí)在產(chǎn)品上,有時(shí)候是自下而上做產(chǎn)品的過程中,給了“智能算法”太多的束縛,大家總是優(yōu)先考慮成本和穩(wěn)定性,而不是技術(shù)應(yīng)用本身。我們從人工智能領(lǐng)域出來做機(jī)器人,希望兩者做個(gè)折衷,以自上而下的愿景給智能技術(shù)找一個(gè)市場(chǎng)立足點(diǎn)。市場(chǎng)對(duì)智能產(chǎn)品需求的不明晰,也是機(jī)器視覺難落地市場(chǎng)的一大因素?!?/p>


   可以看出,芯片的運(yùn)算能力以及成本是大家認(rèn)為機(jī)器視覺在消費(fèi)級(jí)市場(chǎng)落地的主要影響因素,其次是集成方案以及人工智能技術(shù)。但由于消費(fèi)電子對(duì)于量和價(jià)格以及技術(shù)成熟度均有著較高要求,可能要到這些配合的產(chǎn)業(yè)鏈環(huán)節(jié)都成熟之后,消費(fèi)應(yīng)用的春天才會(huì)到來,雷鋒網(wǎng)也會(huì)進(jìn)一步關(guān)注這方面的進(jìn)展。



投訴建議

提交

查看更多評(píng)論
其他資訊

查看更多

Z-LASER發(fā)布新品:全新ZX系列激光產(chǎn)品

德國之行,上海方千榮獲Z-Laser機(jī)器視覺激光2015全球最佳成長獎(jiǎng)

機(jī)器視覺:何時(shí)飛入尋常百姓家

西克觀點(diǎn):推動(dòng)傳感器智能化

標(biāo)準(zhǔn)C接口鏡頭