Sugr的回答:智能音箱只是开始,中美语音交互有何不同?
Sugr的CEO宋少鹏在西南偏南的台上讲了一个故事:他的一个客户找到他,想要修复刚刚坏掉的智能音箱,宋少鹏提出给他换一台新设备,却被拒绝;用户的理由温情融暖,十岁的孩子一直都在用这台音箱,孩子把它当做伙伴,舍不得。
似乎刚刚走向普及的语音交互技术,等不及太久,竟然一下子从“工具”进化成了“伴侣”。
2014 年,亚马逊发布搭载 Alexa 的 Echo 智能音箱,语音交互有了更合适的落地场景。经过几年的功能迭代,生态链逐渐成熟。2017 年人工智能技术飞速发展,语音交互在AI的带动下变得越来越智能,智能音箱走进了千家万户。
据相关调查报告显示,大约有3900万美国人拥有智能音箱产品,这个数字占到了美国总人口的六分之一。
这股风潮当然也刮到了中国。在Echo发布后,Sugr主动拥抱Alexa平台,成为国内第一个通过亚马逊认证的智能音箱产品,并与Alexa平台合作,向其他客户提供多款完整的智能语音交互解决方案Sugr Sense,可以满足包括智能家居、IOT、车载等不同应用场景的产品开发与快速量产。
在美国西南偏南大会(SXSW),这个科技和音乐的艺术盛典上,宋少鹏带来了他的分享,探讨语音交互的未来、中美语音交互使用习惯的差异,以及语音交互在中国的落地。
Sugr CEO宋少鹏在西南偏南演讲
西南偏南 极客公园IF大会现场
语音交互是下一代操作系统
Sugr团队认为,语音交互会成为下一代的操作系统。宋少鹏提到,这和人机交互的进化规律有关。从 PC 时代的键盘鼠标,到智能手机时代的触屏,人操控外界环境的效率一直在上升,能耗在降低,而语音交互是一种更简单、更自然的交互方式,也符合这样的规律。所以,语音交互会成为下一代的操作系统。
从音乐产品的迭代来看,也可以印证这个规律。在古代,热爱音乐的人去欣赏音乐,需要驾着马车到音乐厅或者歌剧院。后来留声机的发明让人们可以躺在家里听音乐。到了 iPod,大家可以把1000首歌装进口袋,手指一滑,就可以欣赏喜欢的音乐。到 2014 年 亚马逊发布Echo智能音箱,人们只需要动动嘴就能得到自己想要的音乐,能量消耗进一步减少。
语音交互降低了人跟物理世界交互所需的能耗,这个趋势是符合产品迭代规律的。
中美的智能语音交互和而不同,场景和用户习惯会塑造产品形态
虽然Sugr团队认定语音交互会成为下一代操作系统,但智能音箱在中国的落地并不能完全照搬美国的做法。环境变化,对产品的需求自然也不一样。
在宋少鹏看来,音乐消费的DNA不同,导致了行为习惯的差异。他提到,美国的音乐消费者是成长于汽车上的黄金一代,汽车上都配备收音机,他们的音乐消费是从听收音机开始的。大家习惯了这种背景式的、实时存在式的播放,在任何一个生活场景里面都想要有音乐的存在。这种情况下,他们更喜欢歌单推荐、流媒体的音乐形式。
中国的音乐消费者最初接触音乐是源于80年代初期改革开放,港台音乐以盒带和卡带形式大量流入内地,大家接触音乐是一个歌手的完整专辑,里面有各种各样的曲风,但很少有合集和混编。所以他们更习惯于点播式的音乐消费。
智能音箱在美国的诞生并不是偶然,它解决了家庭环境听音乐的痛点,可以让音乐一天不停地播放,而流媒体形式的听歌习惯不需要太多操控,对语音交互的语义理解能力要求就没那么高。所以美国的公司才能以「最小化可实现原型」的形式,迅速推出智能音箱这样一个产品,来满足用户的需求。
音箱本来是被动播放音乐的产品,人工智能和语音助手的加入使它能够主动获取信息,并和人产生交互,成为一个流量的入口。随着技术的进步,它又开始加入家居产品的控制功能,逐步成为智能家居的中控,这样就有了很大的想象空间。
Amazon有Alexa,Google有Google Assistant,Apple有Siri,腾讯百度阿里巴巴也都有自己的智能语音助手。巨头的加入让整个生态链更加完善,智能语音交互也开始有了更多的应用场景,从智能家居、儿童看护、IOT物联网、车载;随之而来的,还有更多适应这些场景的产品落地形态。
不只产品,而是完整体验
在目标明确,道路明晰之后,Sugr将精力投入到语音交互产品的落地工作中。他们的音箱成为国内第一个经过Alexa认证的智能音箱产品,后来开始和亚马逊团队进行合作,给想进入Alexa平台的产品提供技术解决方案。Sugr 团队将自己在语音交互产品上的经验打包,从做C端产品转型为做B端的方案。
Sugr 团队推出的 Sugr Sense 方案是一个完整的智能音箱解决方案,包括 Wi-Fi 模块,底层技术,操作系统,还有语音 Skill,是软硬结合的全栈式解决方案。这其中有一套单麦克风的解决技术,是目前全球唯一一套可以通过Amazon严格测试并认证的单麦克风解决方案。这项单麦克风解决方案在Amazon的测试环境里拥有不错的成绩,在9英尺的环境下(2.74 米),普通办公或者是家居环境下,唤醒响应率能达到 100%,在9英尺的距离,在设备自身播放音乐,AEC(自适应回声消除)场景下,正确响应率达到了98%。
除此之外,还有多款可适用于智能家居、IOT、车载等不同应用场景的完整解决方案,不但可以降低行业门槛,还可以提升整个行业的效率。
从产品接入Alexa,到和亚马逊合作,帮助其他的产品接入Alexa,Sugr认识到 Echo 的成功不能简单归结为单纯的产品或技术进步,而是一整套用户体验方案的解决。而这些经验对智能音箱在中国的落地有很大的借鉴意义。
正如前面所说,在中国点播音乐是常态,这需要更强大的语义理解能力,更丰富、更深入的音乐知识图谱,以及更完善的音乐版权和曲库。还有使用场景的不同,美国家庭大多是中央空调系统,而中国的空调大部分为独立的壁挂式、落地式空调,如果音箱作为智能家居的中控,对于空调的控制场景是不同的。在中国做智能语音交互产品,照搬亚马逊是不行的,需要融入更多关于产品使用场景、用户交互习惯方面的思考。
未来是智能语音交互的时代
当冰冷的科技与人文发生碰撞而开始有了温度,陪伴的意义就超出了技术的范畴。
伴随着智能手机、触屏长大的孩子们,看见什么都想点一点;而我们的下一代将是成长在语音交互时代的。也许,智能语音交互会改变的,不仅仅是我们和数码产品之间的交流方式,也正在悄悄的影响着我们人与人之间的互动。
特别提醒:本网内容转载自其他媒体,目的在于传递更多信息,并不代表本网赞同其观点。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,并请自行核实相关内容。本站不承担此类作品侵权行为的直接责任及连带责任。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。