新闻动态
阿里云打下AI地基,更多的开发者走向了前台
2020-11-25

很长时间没与星瞳(谢宣松)打交道了,之前他的身份一直在变。从早期的图像搜索拍立淘创始成员,到业内第一个智能设计产品鹿班的技术负责人,再到后面研究医疗AI的技术负责人。这些前沿技术的探索和应用经历,让他看起来像一个连续创新创业者。

现在,星瞳又多了一个新身份——阿里云视觉智能开放平台负责人。过去一年多的埋头苦干,他和伙伴们完成了平台从0到1的搭建,并上线了超过150个API接口。

星瞳并不是个例。包括现在视觉智能开放平台的团队成员也有类似的背景和经历。当外界还在种种猜测阿里AI专家们在做什么样的探索时,他们早已拓展了新的边界——不仅做前沿的智能技术探索,也要打造开发视觉开放平台这样的产品,将人工智能变成人人可及的普惠科技。

这也导向了另一种商业故事剧本。越来越多的算法专家走向幕后,将原有技术能力整合成开放平台,让更多有创意的人只需要少许的技术基础,就有可能开发出有价值的AI应用。

阿里云视觉智能开放平台源起

2016年,AlphaGo 大胜李世石。人工智能浪潮席卷全球,成为“高大上”IT技术的代名词。每一家知名AI公司的背后,都有不少“AI业界大牛”坐镇。AI人才资源被巨头争抢的话题向来被大家津津乐道。行业的火爆,人才的稀缺,每一位AI大牛的动向都引得圈内格外关注。挖角抢人大战不断,不仅将这个行业的薪资抬到八位数年薪,也不断抬高了AI应用的门槛。

AI概念很热,但一谈应用AI就容易冷场。居高不下的应用成本,制约着人工智能技术的普及与规模化应用落地。从各种强行与AI沾亲带故到谈AI色变,也只用了短短三年。

星瞳身在行业,也感受到了这种变化。与2015年相比,人工智能产业快速发展,广泛应用于政府、金融、医疗、交通、零售、工业、制造等领域。有数据显示,到2020年市场规模或达到710亿元,同比增长大约44.5%。作为人工智能领域的三要素之一,算力成本也在大幅下降,从2014年到2020年,芯片价格对比下降了近70%,为人工智能技术能够在这十年内快速发展最终商用提供了土壤。 此时,放眼行业,对于小公司来说,搭建顶级技术团队,推出操作系统级别的内部通用平台,从0到1完成整套AI应用的开发,这样的AI故事已经不再动听。反而是利用AI技术,改造传统行业或者应用、提升产业效率的需求不断涌现。这也意味着推出AI的智能开放平台市场需求逐渐成熟。

另一面,整个阿里巴巴集团有大量研发人员围绕着视觉技术在电子商务、城市大脑、金融支付、交通物流、通信会议、新零售、文娱等多个行业的应用需求,对外贡献了许多产品和解决方案,这其中沉淀了诸多视觉基础能力。同时,阿里巴巴的许多内部业务,如淘宝、天猫、优酷等诸多明星产品都有视觉能力在背后的支持有着海量的用户规模,对这些视觉智能技术能力进行了千锤百炼。但早期,这些基础视觉技术并没有被聚合在一起。

于是,建设阿里云视觉智能开放平台的想法应运而生。2019年8月,在阿里巴巴集团视觉技术小组的牵头下,开放平台作为一个重点战役开始启动,这一计划也得到了包括阿里巴巴副总裁、达摩院城市大脑实验室负责人华先胜等上层支持,这也与星瞳一直以来的判断不谋而合。

星瞳牵头启动项目后,就迅速得到了包括淘系、优酷、蚂蚁在内的20多个有计算机视觉经验的项目团队的支持。

经过一个季度的研发,2019年12月20日,第一版视觉智能开放平台正式上线。在星瞳的规划里,平台定位是视觉AI能力开放中心和能力再生产中心,也可以看成一个视觉智能核心零部件的供给库。这些零件有自营的,即阿里巴巴团队自己研发的;也有第三方供应商的,即生态伙伴或者其他相关方提供的。其次,开放平台也是一个效率工具,有着大量的场景案例,可以帮助开发人员更高效开发落地产品。开放平台是双向的,内部和外部都可以使用,对外主要面向视觉智能技术的开发与应用用户,为其提供好用、易用、普惠的视觉智能API服务,帮助企业、开发者快速建立视觉智能技术的应用能力。

达到这样的规划并不容易。一方面,当团队希望更短的时间内上线更多能力时,需要调动其他业务同事的支持。这里不仅既涉及到基础设施、文档案例、各种测试等基础工作,也需要进行市场的调研,结合场景和市场需求进行产品化,开发工程量非常大。

另一方面,当机器视觉的能力来自各个地方,首先需要验证这些API是否能够达到作为公共能力的要求。为此,平台制定了专门的算法接入规范,其中既包括了视觉能力的分类规范,同时为了保证上线API的质量,也设置了评测机制,会对API的各种性能进行评测,只有达到一定的标准才能上线。事实上,研发期间,也有多个团队开发的API,就因为在性能、封装等方面不达标,被拒绝上线。

在团队的共同的努力下,这一平台也不断迭代更新。2020年4月上线第二版。截止今年9月,已经有共计150多个视觉相关API进行上线,并很快得到开发者青睐,日调用量迅猛提升。

阿里云特色的视觉智能开放平台

阿里云推出视觉智能开放平台时,业界已有围绕第三方AI开放平台的讨论。打造阿里云特色的视觉智能开放平台就成了摆在大家面前的一道新议题。

星瞳和大家一起分析,视觉智能开放平台的初衷是辅助各个行业的开发者降本提效、助力创新。阿里云视觉智能开放平台的优势则在于:一是易用,依托阿里云智能坚实的基础设施服务,提供普惠易用标准的AI能力,用起来省心省力;二是专业,达摩院科学家及集团专业工程师加持;三是实用,上线的视觉技术是通过阿里巴巴海量场景和最佳案例检验的;四是全面,平台集合了规模化、多样化、场景化的视觉AI能力,为开发者和用户提供一站式能力选择。

开放平台既要在视觉基本面(识别、检测、分割、生成等)通过达摩院等打造核心基础能力,又要在目标应用基本面(文字、商品、内容、行业场景等)中做最佳案例,不断为用户提供多种视觉AI原子能力,包括:图像识别、文字识别、视频理解等多种视觉基础技术。开放平台将阿里巴巴视觉智能技术实践经验开放给视觉应用的开发者与用户,让他们可以在阿里云视觉平台上选择相关能力,自行封装产品、服务或者是解决方案,满足自身或者最终用户的应用需求。目前阿里云视觉智能开放平台上大约有15大类、150个能力,聚焦在视觉理解、视觉生产等环节,提供“专业、多样、易用”的工具,助力创新,帮助开发者快速试错、低成本试错。这也在一定程度上实现了普惠科技的初衷。

除了满足技术上的生态覆盖面,公共云平台一大优势是规模化的性价比能力,希望在成本上做到尽量人人可用。在目前已经公开的产品中,平台采取了一些免费的策略。这些免费策略根据输出的“能力”的不同而不同,比如有的是根据用量,有的按QPS多少,平台都给予一定程度上的免费额度,基本能满足一些要求不高的用户。

当然,AI既要做普惠,也要考虑市场需求。基于视觉基本面,团队做了相关的分析,规划了“市场驱动能力”的研发过程,尽量优选“规模大能实用”的能力,比如与“理解”相关的能力具有明显的普适性和需求广泛性,并从视觉的需求面分析,寻找视觉最广泛的应用场景,比如视频在B 端、C端的应用,以及结合阿里的特色能力。最终两点交汇处的这些能力,诸如车辆检测、对象分割、OCR、商品识别等,也成为平台上的首批爆款API。

事实上,这一过程,也”变相回馈“了参与到平台建设上的团队,平台也成为了验证这些能力与产品的“试验田”。以往,很多算法工程师,往往不会去考虑匹配用户需求、真实场景考验,但API需要上线开放平台时,就意味着不能仅仅只从学术的角度、自己场景设想出发,去做研发,这也意味着一个市场驱动的研发机制形成。

当AI专家走向幕后,更多的开发者走向了前台

星瞳接受采访时提到,阿里云视觉智能开放平台上线的第一天就通过阿里云天池平台与开发者深度链接,彼此高质量互动。

2020年,作为国内主流的AI开发者社区,阿里云天池平台联合阿里云视觉智能开放平台,举办了一场以“无行业不AI”为主题AI开发者创新应用赛。期间,名为启明瞳行的团队,借助平台的能力,开发了一款为盲人出行保驾护航的产品。团队自研了适用于盲人的特殊旋转交互方式,借助GPS高德定位导航、视觉智能开放平台上的图像、文字、 颜色识别等算法,帮助盲人用户识别环境信息、路况信息、物体信息等,同时,依托由志愿者和肢体残疾人担任的视频客服人员进行补充,最终达到了为盲人出行保驾护航。

要实现盲人可用的产品,就意味着必须研发“万物识别”的计算机视觉技术。但开发能落地的AI技术应用,显然不是一件容易事,招到大牛不易、积累训练数据很难、优化算法耗时,技术门槛、资金门槛、算力门槛高,让人望而却步。对于擅长交互和用户体验的团队来说,并非易事。借助阿里云视觉智能开放平台,团队用时不到4个月就完成了原型Demo的开发。

这样的故事,在平台上还有很多。阿里云视觉智能开放平台通过提供高可用性、高可靠性的AI算法,大幅降低开发者的开发难度和开发周期,“低代码”即可创作AI应用。参赛团队闪电的主人の魔法屋,参赛成员为高中生,通过阿里云视觉智能开放平台的相关算法实现视频工具的开发。

当达摩院的专家走向幕后,更多的开发者走向了前台。事实上,走向幕后的专家们,还在用另一种方式进行技术挑战。

在星瞳看来,未来开放平台还需要进一步“做厚”。一方面,进一步探索行业能力,根据行业不断丰富行业能力,这可能意味着会开放数据、模型、算法给到用户,让用户自行进行训练。另一方面,可能也会尝试做更多的解决方案。

现在,这样的相关算法也已经在平台上上线,更多的新算法还在路上……

来源: 36氪 https://36kr.com/p/983396483124615

赤同网络 技术支持&Powered by eLooie.com