原创智能音箱的战场,却成了这家公司的红利收割场

时间:2019-11-06 00:27:56   热度:37.1℃   作者:网络

原标题:智能音箱的战场,却成了这家公司的红利收割场

文/许梦 编辑/单一

2015年京东和科大讯飞合资成立的灵隆科技,推出第一台中文智能音箱。到现在国内智能音箱大战已然战旗烈烈。

今年天猫精灵、小米AI音箱相继宣布销量突破1000万台大关,百度也传出2019年智能音箱的KPI是1000万台。

从占据市场前三的小米小爱、百度小度、天猫精灵魔盒,到华为智能音箱、联想音箱、腾讯王者荣耀智能机器人……在这场音箱鏖战背后,却有一家共同的远场语音技术服务商——声智科技。

他们主要为B端用户提供SoundAI Azero智能操作系统和服务,以及深度结合应用场景的人工智能技术和产品解决方案,并拥有声学传感阵列,远场声学处理,远场语音唤醒,远场语音识别,远场双工通话,远场声纹识别等自主核心技术。

我们平常使用的智能音箱的智能交互服务大多是声智提供技术支持。可以说,声智科技是伴随着智能音箱赛道兴起应运而生的。

使用SoundAI Azero智能操作系统的产品

时间倒回三年前,市场并没有多少人看好语音交互。“那时候大家觉得人脸识别会更好,因为它涉及到安防,政府会有一定的需求。”声智科技创始人、董事长兼CEO陈孝良说。

图像光靠人脸识别就可以重金卖出,相比之下,语音从收集声音、降低环境干扰到识别口音和方言、转化文字等,技术链条过长,而且交互落地场景匮乏,市场前景不明。

但陈孝良认为,声音可以解决人跟物的连接问题,这是个更大的市场。从中科院声学研究所出来,从语音识别领域切入,他创办了声智科技。

语音识别技术,就是为了让机器人听明白人在说什么。语音识别是让机器通过识别和理解,把语音信号转变为相应的文本或命令。通俗来说就是给机器装上耳朵,让机器听懂人类语言,实现人与机器交流。

远场语音识别是通过麦克风阵列前端处理算法,即使在三至五米的距离说话也可准确识别。而近场语音识别,主要指手持设备近距离语音,比如输入法中的语音输入。

彼时,行业普遍的技术思路是从近场过渡到远场,在近场环境中加一些模拟噪声、模拟环境等。

从中科院副教授辞职创业,陈孝良对于方向想得明白。他认为,远场语音交互是未来人机交互的趋势之一,声智直接就是做远场语音交互。和不少AI公司一样,声智刚开始也是从安防领域切入。

当时,360也正在寻找一个能解决摄像头远场语音问题的技术服务商。很多摄像头虽然能录像,但是摄像头距离一拉远,收音含混不清。当360找到他们,双方一拍即合。声智抓住这一市场痛点进行针对性研发。成立3个月后,声智提供技术支持的首款语音安防产品——奇虎360小水滴智能摄像机正式上线。

奇虎360小水滴智能摄像机

“摄像头销量很好。”陈孝良告诉锌财经。第一个订单不仅吸引来了360这个重要客户,后来360也成为第一波押注声智的股东。2016年5月,声智拿到了峰瑞资本、奇虎360、润浙资本的上千万天使轮融资。

如果说和360的合作是试水成功,那么成为小米音箱远场语音交互方案的唯一供应商,让声智一炮打响。

2016年8月,小米联创王川来声智考察技术。彼时,陈孝良团队已经做出了智能音箱模型。

在硬件上,声智科技凭借声学信号方面的技术积累,研发出单麦、双麦、4麦克风阵列、6麦克风阵列和8麦克风阵列等。其中麦克风阵列集成了全方位唤醒、声源检测、定向拾音、噪音拟制、混响消除、回声抵消、声纹识别等多项技术。

据陈孝良介绍,小米AI音箱包含6麦环形阵列技术和远场唤醒技术,具有Dual-wake、Free-cut、One-shot等独有的定制功能。而在小爱音箱mini上,声智提供了4麦远场语音交互技术,解决了小型智能音箱体积较小(麦克风阵列与大音量喇叭相距很近)、低成本喇叭失真较大的技术困难。

小米AI音箱

智能音箱为声智在人工智能硬件领域撕开了一个口子。随后,百度、阿里、联想、华为等客户纷至沓来。

为什么选择一个成立不到两年的初创公司作为技术提供商?陈孝良认为,靠的是技术的黏性。语音交互技术不断迭代,只有跑在前头了,才有后边客户的积累、数据积累以及市场规模的积累。

在语音交互的领域,除了单点实验的突破外,最重要的是规模化验证。谁最先实现规模化,谁就会占领先机。

声智是通过使用麦克风阵列及相关算法,对目标说话人的声音进行远场增强并匹配远场语音识别。在技术落地之初,很多厂商设备的芯片、传感器与其麦克风阵列并不兼容。

声智的解决方案是最大限度屏蔽芯片的差异化,通过算法处理芯片、传感器、麦克风阵列不一致性的问题,以此实现产品的规模化。

“厂商在芯片上要支持你,传感器也要支持你的算法,要实现兼容,需要推动整个产业链条。”陈孝良提到。他回忆那段日子,每天游说于芯片厂商、传感器厂商之间,说服他们进行产品升级。通过算法的更新优化减少对硬件的依赖,进而降低芯片成本,设备的成本也得以迅速降下来。以智能音箱为例,其价格从一上市的上千元已经降至现在几百元。

在横向上,陈孝良团队不再满足于做单点语音硬件突破,开始在各种各样的设备以及应用场景中实现智能语音功能。也就是说,无论是什么智能设备,不管用在哪个场景里边,都能嵌入智能语音应用。

从攻坚单点技术,到追求底层架构泛化, SoundAI Azero智能操作系统问世。这是一套底层AI OS,在该系统上,企业可根据自己的需要可进行二次开发。

“作为技术产业链条中的一环,那我们就希望提供一套通用的,能够支持二次开发的,能够兼容更多设备和场景的AI操作系统,让客户在上面去开发他们逻辑以及开发自己的产品。”陈孝良说。

在这套通用交互系统里,无论设备是带屏使用还是语音操作都可以,交互方式兼容。

Azero系统默认集成信息查询、影音娱乐、LOT控制

等200+项常用技能与服务 图片来源于受访者

智能音箱之后,声智也将范围拓展至智能电视、机顶盒、智能卫浴等智能家居领域,在汽车、安防、金融、教育、医疗、机器人等行业,都看到了SoundAI Azero智能操作系统的身影。

他们服务的客户规模也越来越大、title也越来越响,华为、小米、百度、腾讯、阿里、中国移动、中国联通、中央人民广播电台、联想、创维、宝洁、万科、奇虎360、金蝶、浪潮、国美……声智已然在远场语音交互占据大半江山。

陈孝良没有放慢节奏,而是加快了脚步,面对一直在变化的市场,陈孝良和他的团队随时出击。

锌财经

作为2016年刚做的初创公司,这些大厂会为什么要选择你们?

陈孝良

有很多个方面的因素。首先,比较重要的是公司的战略定位以及在市场中的合作态度。

我们把自己定位为ToB的、做操作系统和技术服务的公司,专注做好远场语音智能技术服务商的角色,为行业客户提供最优秀、最前沿的智能交互服务。其次,技术的不断迭代和领先,这是技术公司的根本出发点。

在技术的规模性验证上,声智在规模化验证时付出了极大的努力,同时在产业链中也做了很多的工作。例如,智能音箱能快速地批量生产,需要用技术解决传感、芯片的技术升级以及它们之间的差异化问题,包括智能音箱的扬声器、麦克风阵列、声学结构和ID设计的问题。声智在规模化量产中和很多上下游产业链进行合作,并依靠声智独特的工程能力去辅助支撑。

锌财经

作为公司的核心产品,SoundAI Azero是如何解决行业的通用问题的?

陈孝良

SoundAI Azero是声智科技基于全球领先的远场语音交互技术为企业、个人及第三方开发者免费开放的全链条AI操作系统。这是一套集成远场唤醒、波束形成、声源测向、噪声抑制、混响消除、回声消除、端点检测、语音识别、声纹识别、语义理解、语音合成、双工通话、自然语言处理、声波配网等技术的人机交互系统。

我们希望Azero能够连接有价值的信息、服务与设备,让智能语音技术安全应用到我们生活、办公、出行的各个场景,支撑电信、金融、教育、医疗和电力等行业应用,并支撑国内人工智能芯片行业的自主研发和产业落地,为多种场景和设备提供高效的人机交互和智能决策能力。

用一句话来说,Azero智能操作系统就是让每一台机器都更加智能,而且更加快速获得智能交互能力。

锌财经

你们已经在这个领域里占据了一定的市场份额,下一步的计划是?

陈孝良

专注于智能操作系统以及用户体验的不断提升,这是我们从成立到现在一直坚持的,并且也会长期专注这个目标并不断地迭代下去。

目前我们声智正在不断加大在声学和人工智能技术方面的研发投入,我们将努力保持与美国同类技术研究的同步,并在某些单点技术方面超越美国,力求用全球最好的技术服务全球客户,并推动国内产业链的转型升级。

上一篇: 原创德甲前瞻拜仁VS多特:南大王换帅后第...

下一篇: 原创出格才会出众!看她如从学渣逆袭成学霸...


 本站广告