如今的 AI、物联网、5G 正处于「混合」状态, 创新不断加速。5G 成为促进万物互联的核心, 而诸多应用场景都要借力于 AI 的发展。AI 业发展的关键要素除算法、数据和芯片之外, 还需要外部的生态、资金、市场等支持。
从 2018 年以来,越来越多大公司和创业者将业务突破点和增长点放到了 To B 的赛道上,甚至走到了垂直行业的深处寻找商业化的场景。AI 作为一种通用的技术,在 To B 领域及产业互联网中也有广泛的应用场景。
AI 围绕技术创新与产业应用落地已在稳步向前, 智领未来仍需洞悉风向, 脚踏实地。
近日,浪潮 AI 首席算法架构师张清接受媒体采访,围绕有关浪潮 AI 事业部的发展与战略进行了解读。
以下为部分采访实录,经编辑:
记者:我想问您一个问题,此次咱们浪潮展出的三款服务器,目前的应用情况,还有AI 超算服务器和极致计算密度 AI 服务器的相关方面?
张清:因为浪潮要提供我们在 AI 的全阵列的计算平台来加速 AI 训练算法的创新,然后深度学习训练模型算法算行完之后,我们会推断实际的应用,来推理这块平台。所以这块训练和推理平台是比较全的。此次我们大会里面我们展的话,其中三款是比较有代表性的。那么这三款一个是我们的 AGX-2 全球密度最高的一款服务器,他在两个的空间里面,有八个 GPU 来做计算,做加速。还有我们的高可扩展可以支持 20 个 T4 的集群来做云计算,他是叫 NF5468M5,另外一个,我们主推的一个 AGX-5,他是单机最高性能达到两个两千万亿次 flops 的 16 个 GPU 卡的加速。那么这些平台,目前在向互联网的用户,在做视觉图像处理的人车物的检测,那么还有一些金融的,这些用户都在他们的私有数据平台来做,线下的训练中心来做了算法的训练计算。也有在他实际的云端,做推理加速的计算,目前落户的用户还是非常的(实用)。
记者:咱们最近刚刚跟百度有一个 AI 方面的合作,双方都在 AI 方面有比较大的技术实力,请问您二者之间的交集和互补是怎么样的?
张清:实际上百度在 AI 的技术和算法这块,他们应该是技术储备非常的深厚的,相应的像人脸识别,OCR,等等,这些算法都有自己完备的算法库,那么浪潮实际上在,我们说在 AI 的计算这个角度上,我们知道 AI 的三大要素。算法是一个方面,第二个数据,第三块是比较强劲的计算。所以浪潮再定位一下计算这块,在计算这块,那么还有浪潮肯定还会有一些相应的数据优势资源,政府的一些数据或者什么。
我们跟百度的合作,第一个可以以百度的算法,他的应用场景,在我们具体的会落到一些特定的一些行业或用户的时候,他可能有这个场景,比如说有一些人脸识别的需求,OCR 的需求,像 OCR 在金融这块,有很多 OCR 的场景需求。他的算法跟浪潮的计算平台,我们很好的可以进行方案的整合,提供我们这些垂直的用户给到他们,做最快的一个方式来进行一个赋能。
所以浪潮应该跟百度合作互补方面是比较,这些优势方面还是很好的一个比较好的一个互补的作用,从他的技术跟我们计算这块来对接当然我们也在生态方面有一些合作,他们的 paddle paddle,可以说是中国自主开发的这种 AI 计算框架,目前下载量是非常大的,这种框架也在我们整个 AI 的工作站里面,整个解决方案的占比,我们也进行一个合作推广,生态这块。
记者 :我看到 AI 技术可以应用到医疗健康方面,具体怎么来实现,而且还说会开发一些关于医疗服务的应用,这种在现实生活中在医疗的过程中,到底有什么意义,或者对我们个有什么一个帮助。
张清:现在 AI 在医疗这块,更多的场景,现在可能目前是主要在科研的探索方面,当然有一些场景,现在也已经落地了,比如说,可以有一些医院的智能巡导,医院智能的巡导,靠 AI 机器人大概来做一个导医的作用。这方面已经有一些相应的开发商,以及软件提供商,先把 AI 的技术挪进去,然后让他跟着智能化,来代替人来做一些巡导的一些场景。这是我们看到的。当然还有一些场景,比如说,我们说了这一些病灶的,这种病灶的检测,他的位置在哪儿,他能识别出来,他是良性还是恶性。那么这块就有业内很多的一些科研机构,包括医院的科研机构都在做探索,这块未来会引入 AI 的一些技术,会有大量的这种 CT 的影象的数据,核磁的数据。血液的数据来进行,我们利用 AI 技术来进行训练,他可以把这些,在数据里面找到能够很准确的去判断他的病灶到底是良性还是恶性的,做了辅助诊断的一个作用。AI 辅助诊断可以一定程度上可以代替医生的一些工作量。这里面还有一个问题,考虑到安全还是作为一个辅助。最终的决策还是在医生,所以这个目前是有很多的医疗方面,这方面在探索。
记者:有人说计算力就是生产力,AI 计算可能就说所谓的新型生产力。然后浪潮在整体 AI 计算系统的设计和优化的过程中,在你们后方的大架构上是怎么部署的。
张清:怎么部署,我们实际上还是两块,一个是围绕用户训练的平台方面,采用相应的高速的互联网络,把各个节点串联起来。然后能支撑他们训练的任务,在这种训练架构上面,我们会做一个是单节点内的纵向的扩展的优化,GPU,从 8 卡,现在到 16 卡的这个升级,横向的方面,我们也在架构方面。比如网络(拓扑),原来可能在这个集成训练可能采用万兆的网络互联,就已经达到上限,现在可能会采用这种双 IB。100G 以上,达到 200G 的,训练模型更快。
所以目的就是说我们需要制成大的复杂的网络,复杂的模型。能够在一个大的 GPU 的平台上面能够训练出来,如果这里面整个的计算架构,如果不做整体的优化,即使给了用户这么大的平台,这个平台可能利用率也非常低。扩展效率比较低。所以我们在考虑计算的横向扩展。也是给用户提供比较大的平台。第二个方面,让他的线上推理能够跑起来,提升效率,扩展效率就上去了。所以就是这样那么在推理这块,我们更多关注他的延时吞吐和功耗。因为他实际上很多推理平台,我们开展大的互联网用户的话,他要部署他的云上提供服务的,所以这个平台给到我们一些互联网用户的话,推理平台优化的话,我们需要在能耗方面采用更低的,比如 FPGA。我们更低的,是比 GPU 更低的功耗的一种计算架构,去构建推理的一个模型,所以浪潮这块会在计算架构围绕他的功耗,他的延时吞吐量方面去做性能优化这个系统,给到我们的用户。
另外一方面,我们也在做整个系统的一个优化配置,比如说我们的 AIStation 资源管理平台。那这个平台,我们之前早些年的时候,比如金融的用户,很多他可能是分散的。不同的 GPU 节点,这个工作组做图象识别,那个工作组做语音识别。那么整个资源是分散利用的。他的计算效率并不是最佳的,我们通过一个管理的平台,让他整个资源整合,实现统一的调度,管理,监控,GPU 的效率可以大幅提升。
记者:上午宣传片里,说过一句话,产业是很大的一个生态,不是一家能做起来的,我刚搜了您说的五个关键抉择好像里面也提这个生态协作。我想问问,你们目前从浪潮这儿来出发,包括和大企业以及推动这个大中小企业融通发展这方面,你们现在是怎么做这个。为什么人工智能这个产业特别强调生态的协作。
张清:首先是这样,本身 AI 这块是一个相对比较开放和开源的一个环境,你看到这些模型,从高校或者是一些企业出来模型的话,他都会去开放开开源出来,那么这样的话,开放出来的话,更多的用户去使用他的模型,更多的数据过来。那么会迭代他的算法进一步的更新优化。那么这个技术整个的技术,包括一些工具,都很多在我们开展的这个社区里面会找到,AI 是一个对中国来说很好的一个机会,可以在继承应用现有的一些(社区)的技术,能实现弯道超车的一个技术,所以整个包括我们浪潮做的一些工具,我们也像(TF2)的工具,我们也施行开源。我们之前做的是 Caffe-MPI 我们框架也去开源,包括百度的 paddlepaddle,如果这个工具只是在你一家用的话,可能可预见的他的生命力周期不会很长,因为他的技术迭代会非常快。所以我们需要影响更多的用户来使用,从这个角度考虑需要做更多的开放和开元的一些工作来推动来合作。
所以浪潮这块,我们整个的计算平台,我们要围绕计算平台方面,还需要构建更多的,整个从通用的产品来从整个数据进来处理,到整个标签,在整个训练和推理,实际上这里面的环节比较多,这里面设计的软件的部件也比较多,浪潮这边可能不是说所有的部件都要做,我们需要跟我们的跟元脑的合作伙伴有一个比较强的配合合作,这样才能构建一个比较相对符合用户的这个场景,他所需求的这种整体的一个解决方案,给到用户来做。所以从这个机制来说的话是最快的,因为 AI 的迭代速度也非常快。如果等一家去把这个软件都开发完的话,那我们想我们的价值肯定对用户来说就不存在了。也需要一个时效性的问题。所以需要更多的用户,生态一起来做这个,打造整体的一个解决方案进来。所以从这几个方面来看,我们需要跟生态合作伙伴更强的一个配合。也是为了更快的赋能我们的用户。
记者:您觉得山东在办的 AI 赛这方面有什么优势和挑战,还有浪潮想在其中扮演什么角色?
张清:山东这一块我们看到实际上,山东大的这个环境,比如说产业环境,像制造这一块,高端制造和我们说的 AI 服务器这一块,这里面其实涉及到很多的工业方面的,比如说像质量检测,这里面生产线的瑕疵的检测,实际上这些传统的生产应用可能更多的还是靠人工去做,那么 AI 这个技术进来的话,目前相对在检测这类还是相对非常成熟的,技术目前验证的话效果是非常好的,山东在制造这块有比较强的需求的拉动,那么很快可以把 AI 这个技术能够结合进来,融合进来,就是说在山东这个大的产业背景下面我觉得 AI 可发挥的作用的空间非常大,这是他的产业优势。
因为目前 AI 的话,很多还是处于一个黑盒子的算法,(不具有)可解释性,那么对有一些要求特别安全性的,比如说医疗、自动驾驶这种安全性特别高的,他的落地反而会慢一些,那么对有一些提高生产效率的,降低成本的这种场景,AI 很快能够应用上来,这个我觉得是在山东这一块,他的产业机会非常好,这是第一块。
第二块,实际上山东这一块 AI 产业像计算有很好的底蕴,我觉得这个在一些优势的积累,在计算的 AI 服务器,AI 计算这一块,所以可以拉动相应的更多的产业和机会进来,我们一起把 AI 这个产业发展起来。
记者:不管在山东内还是山东省外,浪潮 AI 目前最具有代表性的落地案例能不能相应的分享一下?
张清:我们有几个,我在这里简单举一下,一个是跟平安科技,我们在金融这块的一个深度的合作,平安科技实际上服务于他的整个平安的金融体系的,很多场景我们看,大家可能有一些车碰瓷或者刮蹭,现在可能更多的是通过直接把数据传到云上去,来做智能的分析然后传回来,可能并不一定需要交警来处理,所以这个的背后就是 AI 的一些场景在做支撑,这里面平安有很多的场景需求拉动,浪潮正好跟他配合在提供他的场景的计算的支撑,我们跟他成立了伏羲的联合实验室,采用我们的 AGX-5,就是刚才说的(训练)的最强的计算主机已经基于他云上这些应用,这个平台来进行他的一个定制化的升级,(从)他的云主机的训练平台来整合,所以这块我们跟他在这方面,云上的计算平台也有合作,实验室里面定制化的一些设计。
另外还有用户像一加的手机,就是说他在这一块也有两个相应的合作,一个是我们的计算的平台的合作,第二方面是在刚才说的资源管理平台的(AI Station)资源管理的平台的合作,这是比较典型的案例。
记者:跟平安的合作当中有没有一些可量化的?他取得的效果有没有量化的指标?
张清:我这边举这个例子,并不一定是平安的,我们之前的 AI Station 这一块的效率,之前我们有一个安防的用户,他们之前原来那个平台并没有(引入统一到)我们 AI Station 的管理平台,他整个的资源使用的效率只有 40%,然后通过我们这个 AI Station 的平台部署,把整个 GQ 的资源统计管理起来,调度起来之后整个利用率达到 80%,这个是我们跟他真正的 case by case 来定制化,把我们的平台适配到他们的场景,然后怎么把他的平台管理和利用起来。
记者:山东在人工智能产业链上,从上下游整个您觉得是一个什么样的情况?哪一端或者哪一块比较强,然后哪一方面还有待去完善?
张清:刚才说到山东我觉得在场景方面,AI 的场景在上层的应用场景方面我觉得是刚才说的,有比较好的一个环境,在这个应用场景或背景下面来落地的,可预见性的未来应该就有很大批的企业会把 AI 作为一个很重要的战略的方向,他的产品线,他的技术创新会引入 AI,来加快他的产品的创新,提升他的竞争力,我觉得从应用场景上面,在这种细分的领域方面已经占有比较好的一个优势了,来发展、带动整个周边的制造产业。现在再往底层,就是基础设施计算这一层,我想以浪潮为首我们在做整个计算的领先的这个位置我们也可以拉动,基础上浪潮可以建共用的大的计算平台,我们可以服务于更多的山东的一些企业用户,政府或者怎么样可以牵头来做这样大的平台的规划,我们可以配合来把整个平台构建起来。
记者:正在建这个大平台吗?
嘉宾:有这么一个建议和设想,围绕着计算基础这一块,这个链条最底层的计算,就是 IaaS 层,我们说也是有相应的技术的优势的。那么再往这个方面,再往相应的我们说的中间这个平台层这一块的话,我们说平台层还需要引入更多的一些合作伙伴进来,这块来拉动,然后包括一些相应的 AI 的人才方面我们也需要做更多的补充或者是一些相应的项目(开放)。
记者:浪潮 AI 团队在业务这方面追求的目标你可以分享一下吗?
张清:业务目标,实际上目前我们 AI 的业务在中国的市场,刚才说已经在中国市场占最大了,已经是排名第一了,我们希望我们全球化发展,未来我们希望在全球这一块的业务上面能有更领先的一个排名,最后我们整个浪潮未来得发展目标是在服务器这块,要做到全球第一,我相信 AI 在未来是一个拉动我们整个服务器业务的最大的一个拉动力,我们说 AI 这块也希望做到全球领先的位置。
记者:时间再放近一点,当下更关注什么?
张清:当下我关注的实际上从浪潮来说,第一方面我们整个的平台能够在整个的行业上面能更好的去使用,而且获得比较好的一个应用的效果,所以这个应用效果是需要我们做更多的一些工作的,所以浪潮不仅在计算的基础平台上给到用户一些硬件的平台,我们希望在应用这个角度上面如何把我们,现在 AI 只是冰山一角,AI 现在一些传统的用户所需要的 AI 的能力,比如说 AI 的应用算法能力,或者工具的提供,那么这块还是需要很多的支撑的,我们当然会从应用这个角度上面更好的结合用户的这个场景来帮助他从传统的算法到 AI 的算法的一个迁移和过渡,首先能让他看到 AI 的效果,然后真正把他的场景能够 AI 化(升级)。
记者:我有一个问题,我有一个不太懂的概念想跟您了解一下,比如 IDC 发布的是中国 AI 基础架构市场调研报告,在这里面我们 AI 服务器市场份额是过半的,这两个里面我觉得概念上有一个我不太懂的地方,AI 服务器,他应该是服务器是吧?就是说我们有 AI 能力的服务器是市场份额过半,但是这个报告是 AI 基础架构的市场调研报告,我觉得 AI 这个基础架构可能会用到服务器里面,但是也有可能是一个单独的业务,这个行业或者说这个报告所对应的产业是怎么来划分的?
张清: 其实刚才您问的这个问题是一个比较专业的问题,因为本身他没说基础架构这一块,server 是基础架构,云也是基础架构,他可能有很多基础架构的形式,当时我们因为跟踪了 IDC 这块的一个报告,他当时去做的时候,其实包括在统计的时候,你看他统计份额的时候,大概是浪潮、惠普、华为、联想,实际上来说,他真正看的维度还是一些 serve 的厂商,他为什么出现您的问题,他这个里头还有云,因为可能在 AI 这个领域里,即使我给他云化之后,他这个用的依然还是专用的服务器,所以说这个份额实际上还是落到了这些 serve 的厂商里,就是比如说在这里面,比如说基础架构,阿里云也提供,但他提供的是基础架构的服务。
图片来源:视觉中国