半年前,云知声发布了首款面向物联网的 AI 芯片雨燕(Swift);半年后,云知声宣布了多模态 AI 芯片战略,曝光了正在研发的三款 AI 芯片:第二代物联网语音 AI 芯片雨燕 Lite、面向智慧城市的支持图像与语音计算的多模态 AI 芯片海豚(Dolphin),以及面向智慧出行的车规级多模态 AI 芯片雪豹(Leopard)。
从 2015 年芯片项目确立并搭建团队「正规军」,2017 年「造芯」项目进入攻坚阶段,再到 2018 年 1 月做出第一个 MPW(多项目晶圆),2018 年 5 月份做了发布首款芯片,6 月份启动量产,9 月份发布了基于雨燕的开源方案,云知声的脚步没有停歇。紧跟着,芯片设计团队从语音技术转战至图像 IP 设计。
在经历了 2018 年的商业化洗礼后,国内人工智能企业愈发重视技术和产品方案的完整性和普适性。当人工智能在应用场景的加速落地,AI 芯片的价值毋庸赘言,而「多模态」一词开始被越来越多地提及。
商业变现更进一竿
随着技术迭代和场景需求叠加,AI 芯片的边界发生着微妙变化。2015 年云知声决心做硬件时,专门为此在深圳设立分公司。一套完整的芯片开发过程相对漫长,期间不可避免地会涉及算法迭代,对芯片的研制速率造成影响。雨燕从设计到研发,直至最终量产,时间周期为 3 年。要保证 2015 年立项的芯片,仍适用于时下主流的算法,云知声联合创始人李霄寒并不否认这项任务的艰巨性。凭经验对算法预判之外,团队还要拿出勇气和魄力唯此一搏。
作为云知声的芯片品牌,「雨燕」是 UniOne 芯片矩阵中的初代产品,它围绕智能家居和智能音箱等场景,集成 IoT 人机交互的各项技术,云知声发布这款芯片时称赞「雨燕」是以 1/10 的价格挑战 50 倍的性能。
「第一代 AI 芯片雨燕的架构非常典型。云知声做了两件事情:一是专门设计的具备自主知识产权的高性能 DSP,做音频数据处理,二是做面向音频的人工智能数据/神经处理器。当把这个人工处理器集成进去以后效果是显而易见的,相对于通用方案提升了 50 倍。在硬件设备方面,因为这个芯片是高度集成的,所以外围的线路使得很大的成本降低三分之一」,他说。
黄伟表示,云知声在芯片上下足了功夫,为 B 端客户提供了一套完整的解决方案。其不仅利用人工智能引擎对「雨燕」进行调优,还专门为硬件产品设计 app。客户即买即用,无需再找其他供应商,这是云知声今后芯片提供销售服务模式。
去年 9 月,云知声推出了基于「雨燕」的解决方案,并进行开源,正式推出正对智能家居和智能音箱场景下的解决方案。截至目前,基于「雨燕」的全栈解决方案已导入的各类方案商及合作伙伴已超过 10 家,包括美的、奥克斯、海信、京东、360、中国平安、硬蛋科技等,相关产品有望在今年第一季度上市。
「在 2015 年的这个时间点,我们真心没有想过 2018 年我们会推出自研芯片,不光做出来而且还卖出去了。」黄伟透露,云知声 2018 全年数亿元的营收较上年 3 倍的增长,几乎全部仰仗于芯片的功劳和正确的商业化路径,预计在 2019 年营收再翻 2-3 倍。而看似几个亿的营业额背后,实则撬动了几十亿甚至上百个亿的产值。
另一场革命
在 2012 年公司成立之后,同年 9 月云知声就推出了语音识别功能,专门面向端云互动。经过 6 年多发展,云知声已经拥有成面向物联网单日用量达到 5 亿次的云平台,并为平台开发了 ADPC 模式,它是云知声 AI 深度处理的核心。
2014 年初,团队把语音识别技术分别切入到「AI 生活」和「AI 服务」两个场景中。很快,算法平台化的雏形初现,创始团队很快意识到,光有能力是不够的。「算力和算法的融合,同理于技术与场景结合」,于是云知声便有了「云端芯一体化」的产品技术架构。
当云、端、芯被认作物联网产品端的三要素,云知声立即展开对 IDM 产品的开发,并于在 2015 正式量产,出货量呈规模性增长。
与此同时,2015 年,云知声遭遇来自业务端的「战术端的挑战」,主要有两方面:
第一是来自数据处理的挑战。在跟用户打交道的过程中,注定有大量新数据的导入,语音、头像、手势等数据需要处理,深度互联对算力的要求更高。追求高效就要采用基于深度神经网络的算法,这意味着云知声需要在终端提供更加充分的算力。
另外一个约束来自成本。为解决算力问题,云知声不得不采用更好的算法,导致了成本大幅提升,这对于硬件来说十分敏感。成本之外,更强的算力还意味着更多的功耗。非插电产品的「续航焦虑」指望电池性能得到提升显然不现实。
那么主要矛盾如何化解?云知声认为,基于深度学习的新硬件,即「边缘侧的人工智能芯片」势在必行,这场「自我革命」是 2015 年芯片项目的整体思路。
眼下,只强调算法优势的 AI 企业,很难再满足 B 端客户的场景需求,致使企业的市场竞争力和话语权逐步衰减。尽管云知声创始人兼 CEO 黄伟接受采访时没有明确表态「不做芯片就会被淘汰」,但必须承认,软硬结合才是 AI 企业未来立足之根本。
在产品落地的过程中,算法和芯片二者不可或缺。「如果市面上有适用的芯片还好,如果没有我们就要造」,黄伟指出,「造芯」是云知声的自我选择。这不是它擅长的事,但云知声还是做出来了。去年 5 月 16 日,云知声把第一代 AI 芯片雨燕(Swift)摆在众人面前。黄伟放言,即便是现在,「雨燕」的各项指标仍保持业内领先。
多模态的进击
新年伊始,云知声正在开发的 3 款芯片,会在年内投产上市。一款是面向语音场景的第二代 AI 芯片雨燕(Swift)-Lite,其主要特点是更加轻薄;另一款是面向智慧城市场景的多模态 AI 芯片海豚(Dolphin),这款芯片是云知声在 2019 年非常大的投入,继承云知声的 DeepNet2.0,它不仅仅支持雨燕的功能,还支持摄像头、ISP、OD 和人脸识别;第三款是云知声与亿咖通科技合作推行的车载多模态 AI 芯片雪豹(Leopard),它更加着重本地算力,提供本地语音搜索,无网络的状况下也可通过语音导航选址,并具备一定的图像处理能力。
作为一家靠语音技术做强的公司,云知声看到多模态场景的大势所趋。2018 年,云知声进入图像领域,并投入了不少资源。李霄寒解释,云知声已经完全具备硬件平台能力和分布式机器学习能力,以及数据高速处理和迭代能力。做这些事情不是兴趣始然,而是为了满足物联网场景下,芯片设计的需要。
当前,云知声图像识别的准确率高达 99.8%。除人脸识别外,云知声还有物体识别、表情分析、颜值分析、标签化能力,这背后得益于 DeepNet2.0 的算力加持。
DeepNet 是云知声开发的深度神经网络处理器,DeepNet 1.0 面向语音技术,DeepNet2.0 面向多模态,后者既支持图像处理,同时支持语音处理。目前云知声 DeepNet2.0 已在 FPGA 上得到验证,其算力将在 AI 芯片海豚 Leopard 上得以体现。
较 1.0 版本相比,DeepNet 2.0 首先是兼容性更好,可支持 LSTM、CNN、RNN、TDN 等网络;其次是支持可重构计算,DeepNet2.0 计算单元可以拼接应对计算模式,模式切换也可以快速组合,用单条指令来计算公式;第三是支持 Winograd,芯片做乘法的耗时远远高于加法,基于这一点,Winograd 把乘法耗时降低为原来的 1/2,进一步提升效率。
此外,李霄寒介绍了 AI 芯片在算法应用方面取得的新进展——「超听限同向降噪技术」。所谓「超听限」顾名思义,就是让机器识别到人类听觉范围以外的声音,而「同相降噪」可满足在嘈杂的远场环境下,保证芯片灵敏精准地捕捉到人声。
云知声现阶段的目标明确,就是在物联网技术面前,选择某个重点场景切入,将算力和应用服务更好地结合。而李霄寒笃信,物联网时代的重要命题,是将「能力下沉到设备端」。
展望未来的物联网 AI 芯片的发展路径,云知声团队一致认为,连接方式、安全性、PPA(Power,Performance,Area)是核心。但 AI 物联网芯片仅仅考虑这三要素还不够,场景化、多模态、端云互动这三大方面将深刻地影响 AI 芯片的设计、定位、成本、功耗和芯片需求。