云知声的多模态场景突围：软硬结合，端云互动_资讯_信息化

首页 > 正文

云知声的多模态场景突围：软硬结合，端云互动

半年前，云知声发布了首款面向物联网的 AI 芯片雨燕（Swift）；半年后，云知声宣布了多模态 AI 芯片战略，曝光了正在研发的三款 AI 芯片：第二代物联网语音 AI 芯片雨燕 Lite、面向智慧城市的支持图像与语音计算的多模态 AI 芯片海豚（Dolphin），以及面向智慧出行的车规级多模态 AI 芯片雪豹（Leopard）。

发布时间：2019-06-11 11:18 来源：作者：

从 2015 年芯片项目确立并搭建团队「正规军」，2017 年「造芯」项目进入攻坚阶段，再到 2018 年 1 月做出第一个 MPW（多项目晶圆），2018 年 5 月份做了发布首款芯片，6 月份启动量产，9 月份发布了基于雨燕的开源方案，云知声的脚步没有停歇。紧跟着，芯片设计团队从语音技术转战至图像 IP 设计。

在经历了 2018 年的商业化洗礼后，国内人工智能企业愈发重视技术和产品方案的完整性和普适性。当人工智能在应用场景的加速落地，AI 芯片的价值毋庸赘言，而「多模态」一词开始被越来越多地提及。

商业变现更进一竿

随着技术迭代和场景需求叠加，AI 芯片的边界发生着微妙变化。2015 年云知声决心做硬件时，专门为此在深圳设立分公司。一套完整的芯片开发过程相对漫长，期间不可避免地会涉及算法迭代，对芯片的研制速率造成影响。雨燕从设计到研发，直至最终量产，时间周期为 3 年。要保证 2015 年立项的芯片，仍适用于时下主流的算法，云知声联合创始人李霄寒并不否认这项任务的艰巨性。凭经验对算法预判之外，团队还要拿出勇气和魄力唯此一搏。

作为云知声的芯片品牌，「雨燕」是 UniOne 芯片矩阵中的初代产品，它围绕智能家居和智能音箱等场景，集成 IoT 人机交互的各项技术，云知声发布这款芯片时称赞「雨燕」是以 1／10 的价格挑战 50 倍的性能。

「第一代 AI 芯片雨燕的架构非常典型。云知声做了两件事情：一是专门设计的具备自主知识产权的高性能 DSP，做音频数据处理，二是做面向音频的人工智能数据/神经处理器。当把这个人工处理器集成进去以后效果是显而易见的，相对于通用方案提升了 50 倍。在硬件设备方面，因为这个芯片是高度集成的，所以外围的线路使得很大的成本降低三分之一」，他说。

黄伟表示，云知声在芯片上下足了功夫，为 B 端客户提供了一套完整的解决方案。其不仅利用人工智能引擎对「雨燕」进行调优，还专门为硬件产品设计 app。客户即买即用，无需再找其他供应商，这是云知声今后芯片提供销售服务模式。

去年 9 月，云知声推出了基于「雨燕」的解决方案，并进行开源，正式推出正对智能家居和智能音箱场景下的解决方案。截至目前，基于「雨燕」的全栈解决方案已导入的各类方案商及合作伙伴已超过 10 家，包括美的、奥克斯、海信、京东、360、中国平安、硬蛋科技等，相关产品有望在今年第一季度上市。

「在 2015 年的这个时间点，我们真心没有想过 2018 年我们会推出自研芯片，不光做出来而且还卖出去了。」黄伟透露，云知声 2018 全年数亿元的营收较上年 3 倍的增长，几乎全部仰仗于芯片的功劳和正确的商业化路径，预计在 2019 年营收再翻 2-3 倍。而看似几个亿的营业额背后，实则撬动了几十亿甚至上百个亿的产值。

另一场革命

在 2012 年公司成立之后，同年 9 月云知声就推出了语音识别功能，专门面向端云互动。经过 6 年多发展，云知声已经拥有成面向物联网单日用量达到 5 亿次的云平台，并为平台开发了 ADPC 模式，它是云知声 AI 深度处理的核心。

2014 年初，团队把语音识别技术分别切入到「AI 生活」和「AI 服务」两个场景中。很快，算法平台化的雏形初现，创始团队很快意识到，光有能力是不够的。「算力和算法的融合，同理于技术与场景结合」，于是云知声便有了「云端芯一体化」的产品技术架构。

当云、端、芯被认作物联网产品端的三要素，云知声立即展开对 IDM 产品的开发，并于在 2015 正式量产，出货量呈规模性增长。

与此同时，2015 年，云知声遭遇来自业务端的「战术端的挑战」，主要有两方面：

第一是来自数据处理的挑战。在跟用户打交道的过程中，注定有大量新数据的导入，语音、头像、手势等数据需要处理，深度互联对算力的要求更高。追求高效就要采用基于深度神经网络的算法，这意味着云知声需要在终端提供更加充分的算力。

另外一个约束来自成本。为解决算力问题，云知声不得不采用更好的算法，导致了成本大幅提升，这对于硬件来说十分敏感。成本之外，更强的算力还意味着更多的功耗。非插电产品的「续航焦虑」指望电池性能得到提升显然不现实。

那么主要矛盾如何化解？云知声认为，基于深度学习的新硬件，即「边缘侧的人工智能芯片」势在必行，这场「自我革命」是 2015 年芯片项目的整体思路。

眼下，只强调算法优势的 AI 企业，很难再满足 B 端客户的场景需求，致使企业的市场竞争力和话语权逐步衰减。尽管云知声创始人兼 CEO 黄伟接受采访时没有明确表态「不做芯片就会被淘汰」，但必须承认，软硬结合才是 AI 企业未来立足之根本。

在产品落地的过程中，算法和芯片二者不可或缺。「如果市面上有适用的芯片还好，如果没有我们就要造」，黄伟指出，「造芯」是云知声的自我选择。这不是它擅长的事，但云知声还是做出来了。去年 5 月 16 日，云知声把第一代 AI 芯片雨燕（Swift）摆在众人面前。黄伟放言，即便是现在，「雨燕」的各项指标仍保持业内领先。

多模态的进击

新年伊始，云知声正在开发的 3 款芯片，会在年内投产上市。一款是面向语音场景的第二代 AI 芯片雨燕（Swift）-Lite，其主要特点是更加轻薄；另一款是面向智慧城市场景的多模态 AI 芯片海豚（Dolphin），这款芯片是云知声在 2019 年非常大的投入，继承云知声的 DeepNet2.0，它不仅仅支持雨燕的功能，还支持摄像头、ISP、OD 和人脸识别；第三款是云知声与亿咖通科技合作推行的车载多模态 AI 芯片雪豹（Leopard），它更加着重本地算力，提供本地语音搜索，无网络的状况下也可通过语音导航选址，并具备一定的图像处理能力。

作为一家靠语音技术做强的公司，云知声看到多模态场景的大势所趋。2018 年，云知声进入图像领域，并投入了不少资源。李霄寒解释，云知声已经完全具备硬件平台能力和分布式机器学习能力，以及数据高速处理和迭代能力。做这些事情不是兴趣始然，而是为了满足物联网场景下，芯片设计的需要。

当前，云知声图像识别的准确率高达 99.8%。除人脸识别外，云知声还有物体识别、表情分析、颜值分析、标签化能力，这背后得益于 DeepNet2.0 的算力加持。

DeepNet 是云知声开发的深度神经网络处理器，DeepNet 1.0 面向语音技术，DeepNet2.0 面向多模态，后者既支持图像处理，同时支持语音处理。目前云知声 DeepNet2.0 已在 FPGA 上得到验证，其算力将在 AI 芯片海豚 Leopard 上得以体现。

较 1.0 版本相比，DeepNet 2.0 首先是兼容性更好，可支持 LSTM、CNN、RNN、TDN 等网络；其次是支持可重构计算，DeepNet2.0 计算单元可以拼接应对计算模式，模式切换也可以快速组合，用单条指令来计算公式；第三是支持 Winograd，芯片做乘法的耗时远远高于加法，基于这一点，Winograd 把乘法耗时降低为原来的 1/2，进一步提升效率。

此外，李霄寒介绍了 AI 芯片在算法应用方面取得的新进展——「超听限同向降噪技术」。所谓「超听限」顾名思义，就是让机器识别到人类听觉范围以外的声音，而「同相降噪」可满足在嘈杂的远场环境下，保证芯片灵敏精准地捕捉到人声。

云知声现阶段的目标明确，就是在物联网技术面前，选择某个重点场景切入，将算力和应用服务更好地结合。而李霄寒笃信，物联网时代的重要命题，是将「能力下沉到设备端」。

展望未来的物联网 AI 芯片的发展路径，云知声团队一致认为，连接方式、安全性、PPA（Power，Performance，Area）是核心。但 AI 物联网芯片仅仅考虑这三要素还不够，场景化、多模态、端云互动这三大方面将深刻地影响 AI 芯片的设计、定位、成本、功耗和芯片需求。

关键词阅读:

云知声物联网 AI 芯片

每日必读

专题 访谈

Gartner十二大数据和分析趋势直击痛点

作为数字经济时代最重要的战略资源，数据已...[详细]