博客首页|TW首页| 同事录|业界社区

目前,世界上最贴近实际应用需求的计算机视觉图像识别到底有多精确?答案在2017年7月26日,在CVPR(世界计算机视觉三大顶级会议之一)举办,苏黎世联邦理工(ETH)、Google Research、卡耐基梅隆大学(CMU)共同组织的计算机视觉识别领域的顶级赛事WebVision首届结果揭晓!来自中国的创业团队码隆科技(Malong AI Research)战胜了SnapChat、清华大学、上海科技大学、UCF等来自世界各国的顶尖学术和研发机构,获得了冠军。这对于码隆科技来讲,其实是在7月斩获的第二个殊荣,早在7月初,码隆科技还在德国举办的G20全球创新企业竞赛中获得一等奖。

短短一个月时间,码隆科技在商业和技术领域得到了双料世界冠军,结合此前的种种荣誉,引起了业界的瞩目。而这种“逢赛必冠军”的现象之后,码隆这个团队的本质是更值得关注的。

【中国人工智能团队取得图像识别竞赛世界冠军】

首先我们要知道这个WebVision究竟是什么比赛。

纵览图像识别发展历史,我们能看到在神经网络和深度学习的加持下,近年图像识别的能力一直在不断加强,可图像识别技术的突破性应用却迟迟没有来到我们的生活中。

究其原因,在深度学习算法趋势下的人工智能,图像识别需要大量数据作为“学习样本”,才能将自己训练足够聪明。可这些作为学习样本的数据,往往又是需要经过提炼和标注好的净数据。这样一来就导致,被净数据培养起来的识图技能虽然在固有数据范围内表现出色,但鲁棒性却始终差强人意,在面对现实环境中五花八门的数据时,很容易让图片识别的体验变差。

而WebVision是一场让算法离开净数据的温室的互联网图像识别的比赛。面对更复杂的海量噪声数据——这240万张用来“考试”的图像,不仅随机来自Google和Flickr数据源,甚至一些原始标签是错误的。相比其前身——应用的净数据ImageNet,WebVision的难度提升了一大步,也更接近实际应用。

图片说明:WebVision挑战赛官方公示比赛结果

这场比赛由Google Research、苏黎世联邦理工(ETH)、卡耐基梅隆大学(CMU)等共同组织,在计算机视觉领域最顶尖的学术会议CVPR上举办,其权威性不必再次强调。比赛中,码隆科技Malong AI Research的成绩超过第二名2.5%,全部成绩均列所有成绩的前五名,最差成绩仍领先第二名最高成绩1.33%,实属大比分优势夺冠。

照片说明:在CVPR研讨会上,李飞飞教授作为谷歌研究院代表暨竞赛赞助方,向码隆科技算法团队颁发了WebVision冠军奖项

比赛中,码隆科技摸索了一种针对含有噪声数据的训练策略,第一次将半监督学习(Semi-Supervised Learning)与课程学习(Curriculum Learning)引入到大规模的噪声数据训练中。很好地实现了利用非人工标注的数据来训练一个更好的深度模型这样一个参赛目的。更值得一提的是,码隆科技94.78%的图像识别正确率是在所有参赛队伍中唯一可以达到人类识别正确率的,这意味着人工智能图像识别技术离真正改变人们的生活又进了一步。

不得不说,这是中国创新企业在图像识别、乃至机器视觉发展历程上留下的重要一笔。

【打开多维商业场景 商品图像识别需求无处不在】

上文提及,在更贴近于图像识别实际应用的竞赛WebVision夺冠,并不是码隆科技的技术首秀。这家2014年底就成立的人工智能公司,此前一直在人工智能产品化、落地化方向积累、耕耘。扎实的核心技术积淀和基于互联网环境人工智能的探索,为码隆科技屡次在国内、国际人工智能竞赛舞台上收割荣誉提供了坚实的基础。

码隆科技此次在WebVision中展示的算法实力,早已植入到其核心产品之中,或者说是来源于对核心产品探索。ProductAI人工智能商品识别平台就是码隆科技旗下的产品之一,该平台基于云端,为企业提供人工智能算法API对接,让企业获得自助式甚至是订制式的人工智能服务。基订制术优势,ProductAI的应用场景自然是商品识别——其API可以做到360°无死角识别商品,即使商品之间有遮挡、折叠、变形等情况也可以完美识别。

照片说明:ProductAI人工智能商品识别平台

人工智能商品识别给码隆科技开拓了很广泛的商业应用场景,特别是在日益火爆的“新零售”概念下,有很大拓展空间。比如在无人仓库中清点库存、通过用户浏览数据识别用户喜好等等。尤其在最近很火的“无人便利店”中,ProductAI可以做到快捷简便的商品识别辅助结算,实现结算监控助力无人购物最后一步——解决无人便利店货架混乱、结账不方便两大试运行期间发现的痛点。当我们为AmazonGo感到惊艳时,或许不知道通过ProductAI平台上的API接口,就能迅速搭建起一个媲美Echo Look的产品,甚至创造出更有想象空间的应用。

数据显示,在诸多AI技术的解决方案中,计算机视觉作为值得重点关注的AI技术之一,正在推动用户体验的提升。Gartner的研究显示,到2021年会有30%的经济增长与AI相关,AI将产生 3000 亿美元的商业价值。

这样看来码隆科技的商业前景还是相当光明的,在这个高喊新零售、智能制造的时代,商品图像识别一定会是一项普遍性的需求。而ProductAI的PaaS服务模式门槛较低,更适合新零售和智能制造领域的中小企业客户。

【核心技术和产品化 坐拥两者才能立足AI黄金时代】

目前在世界范围内来看,人工智能都进入了一个黄金发展时期。虽然它的发展从未停止过,但如今媒体和资本的关注无疑为其注入了一剂生长剂。

在中国也有大量创业团队涌入这个领域,想要分一杯羹。但说实话,人工智能和以往任何的一个“风口”都不同,拼用户、拼公关、拼情怀都是不可行的。人工智能不是像共享经济、O2O那样的商业模式创新,它应该像前几次工业革命一样,彻底改变这个世界的运行状态。而这些改变,则由无数细节上的技术革新产生,需要无数埋头在垂直领域上的人推动这台巨型机器运作。

在码隆科技的原始基因里,可以看到对核心技术的绝对控制能力。码隆科技的创始人兼CEO黄鼎隆拥有清华大学人机交互博士学历,曾就职于谷歌,微软,腾讯,有资深产品经验。另一位创始人兼CTO码特(Matt Scott),拥有十年微软开发经验,曾任微软亚洲研究院高级研发主管。二人曾联袂推出的“必应词典”是微软在中国本土化创新并实现商业变现的成功案例,坐拥千万级用户量。同时,码隆科技的团队中,30%团队成员毕业于牛津大学、清华大学、北京大学,中国科学院等名校;团队50%成员曾就职于微软,谷歌,腾讯,百度,富士康等世界500强企业。

在人工智能成果化和商业化方面,码隆科技秉承着这样一个理念:真正的人工智能,不在于自己有多智能,而是在于能不能让别人变得智能。

这样的理念,不仅一语道破此前码隆科技出战WebVision的初衷,并且很好地诠释了其商业化成果——ProductAI 最核心的功能:商品识别。商品识别有别于人脸识别,人脸形态相比而言比较固定,而商品如衣服和布料等柔性物体,会发生扭曲、折叠、遮挡的情况,而且商品数量非常之繁多,使得其横纵向识别难度均非常大。在视觉中国、穿衣助手、优料宝、卷皮、光明日报等诸多码隆科技成功案例中我们不难发现,在这个行业中,将人工智能核心技术真正产品化,是唯一的通行证。所以像码隆科技这样,以技术为出发点,又注重产品的创业团队更容易获得成功。

作为用户,我们看到的是ProductAI在商品识别上惊人的应用。可从这次WebVision夺冠之后,整个人工智能行业看到的是利用噪声数据训练深度学习模型的可能,更看到了半监督式深度学习技术的突破和商业化可能。

毕竟噪声数据不仅仅存在于图像识别中,一切设计到模型训练的领域,比如NLP,都会遇到数据标注成本高、标准不统一等等问题。码隆科技的胜利,让弱人工智能到强人工智能之间的距离又小了一步。

像码隆科技这样能切入垂直商业场景让技术落地,又能不断促进技术发展的创业企业,才能在这个人工智能的黄金时代立足。

王冠雄,著名观察家,中国十大自媒体(见各大权威榜单)。主持和参与4次IPO,传统企业“互联网+”转型教练。每日一篇深度文章,发布于微信、微博、搜索引擎,各大门户、科技博客等近30个主流平台,覆盖400万中国核心商业、科技人群。为金融时报、福布斯等世界级媒体撰稿人,观点被媒体广泛转载引用,影响力极大,详情可百度。


上一篇: 百度金融分拆独立之后:行业地位已定,未来牌局该如何打?
下一篇:搜狐Q2财报公布,细数搜狐重回巅峰之路的王牌

评论

Comments are closed.