2023年可以说是人工智能破圈的元年,从自然语言文字对话到文字生成图片,甚至文字生成短视频。人工智能在消费端的玩法越来越多,但随着热潮褪去,冷静下来的我们也发现,只靠新鲜感并不能长久地吸引用户,对于入口定位C端的人工智能来说,场景落地就是这波热潮真正应用落地的关键。

其中,智能终端的语音交互和视觉交互是C端最容易感知的场景,语音交互没有年龄门槛,老人小孩都可以直观使用,天猫精灵最近推出的IN糖3 Pro,就以199元的价格,直接敲开了初代AIGC硬件的大门。

 

接入阿里巴巴人工智能大模型,对话交互更像“人”了

在4月11日的2023阿里云峰会上,阿里巴巴集团董事会主席兼CEO、阿里云智能集团CEO张勇就提出了“面对AI时代,所有产品都值得用大模型重做一次”的口号。天猫精灵Sound Pro当时是第一个接入千问大模型的demo。而一个月后,天猫精灵又推出了IN糖3 Pro的大模型测试版本,这场AIGC+智能终端的序幕背后,覆盖了越来越多的交互形态。

IN糖系列是天猫精灵一直以来的经典产品线,出货量行业内领先,因为价格亲民、交互数据丰富,一直以来都被业内人士广泛认同为智能家居最好的入口,《电脑报》拿到的天猫精灵IN糖3 Pro 所采用的人工智能内容,评测版处于AIGC Demo阶段,但表现上已经具备第一代AIGC硬件的雏形,让云端的一个个性化鲜活的大模型,融入到这台消费智能终端之中。

 

通过和没有接入大模型的老版本天猫精灵相比,可以从使用体验中察觉到诸多不同。最核心的差别就是对话的连续性,IN糖3 Pro可以联系整段对话的前后文,进行有逻辑的回答,以下就是三年级小朋友和IN糖3 Pro关于“写作文”的对话摘录。

小朋友:天猫精灵,我想写一篇作文

IN糖3 Pro:好的,你的作文主题是什么呢?

小朋友:嗯,我想想,主题就是“春游”吧!

这时候IN糖3 Pro就开始输出作文了,这时候它写作的主题是“去海边”,但因为我们是内陆城市,所以春游不可能去海边,于是孩子打断它:

小朋友:天猫精灵,我的作文主题不能是海边,不如我们去爬山吧!

这时候天猫精灵会说“嗯,让我思考一下”,然后开始重新输出以爬山为主题的春游作文,但因为它会持续输出整篇文章,所以我决定打断它,只让它拟一个大概的提纲,剩下的让孩子自己发挥,于是我说:

家长:天猫精灵,不要写完整的文章,只给我一个简短的提纲吧!

此时IN糖3 Pro就不再输出完整的作文,而是简短的拟了一个100字左右的提纲,孩子就在这个提纲的指引下完成了作文撰写。整个过程都称得上行云流水,没有机械式对话的感觉,在网络通畅的情况下基本没有延迟,效率很高。而作为对比,没有接入人工智能大模型的传统智能音箱就不具备这样流畅的连续对话效果,经常会出现前言不搭后语,甚至无法理解用户语义的情况。

以上的测试,三年级小朋友说的话其实并不像成年人那么有逻辑,有时候会夹杂许多语气词,甚至会不断说错,不断重新更正,对语音识别算法有较高要求。从我们的测试过程来看天猫精灵IN糖3 Pro也的确误解过孩子说的话,但总体正确率很高,在可接受范围内。

 

询问猫精,想写一篇作文

 

作文输出中,孩子改变撰写思路和猫精对话,后者实时调整写作方向

再来一个关于最新大作《塞尔达传说王国之泪》游戏发售的对话,本游戏在5月15日发售,玩家目前有很多不同的问题,拿来考考IN糖3 Pro:

编辑:天猫精灵,你知道塞尔达传说吗?

IN糖3 Pro:我知道,这是一个受大部分游戏玩家喜欢的游戏。

编辑:这个游戏有什么特点?

IN糖3 Pro:让我思考一秒钟,王国之泪是任天堂 Switch平台独占游戏大作,游戏从海拉鲁平原开始,进行探险……

没等它说完,我们打断了对话,强行植入另一个话题,模拟两人多轮层次的交谈

编辑:那和前代的旷野之息相比,王国之泪是不是要好玩一些?

IN糖3 Pro:我不认为这两个游戏对比哪个好有意义,它们都是很优秀的游戏,有各自的特点……

编辑:那王国之泪的地图包括哪些呢?

IN糖3 Pro:王国之泪包括地表世界、地底世界以及天空岛的地图。

 

IN糖3 Pro为用户剖析任天堂新发售的游戏大作《塞尔达传说:王国之泪》

从交互性来看,精灵IN糖3 Pro拟人化程度更高,在我们停止输入对话后,它才开始切入输出新的回答。如果我们表达的内容让机器出现识别偏差,再重新修正表达方式,终端才会进入新的对话,语言中偶尔也有一些玩笑词语。

作为一个从ChatGPT就一直在使用AIGC,每周还要大量进行“文生图”的人工智能老玩家来说,天猫精灵IN糖3 Pro给了我们很不一样的启示:此前我们大量使用的人工智能都是基于视觉的,无论文本、图片还是视频,但智能音箱主打的是语音,和文本提示词不同,它需要理解人究竟在说什么,也就是需要正确地将语音转换文文本,同时给与大模型生成内容等待的时间也要更短,以抵抗用户的“不耐烦”。

至于像“明天天气如何,该怎么穿衣服”这种问题就更是手到擒来了,甚至还可以问它"周末去哪儿玩”“XXX地方附近有什么美食推荐”,它也能给出一些比较有参考价值的答案。

心情不好的时候我们还可以向它“求安慰”,比如问:“我不开心的时候可以做点什么?”

IN糖3 Pro会给你一些暖心的建议:“跟老友聚一聚吧”,“健健身流流汗啦”等等,甚至还能继续根据对话给出更细致的建议,综合来看的确可以满足日常自然对话需求。

 

除了AIGC,智能家居老本行怎么样?

理想化的智能家居,是每个电器甚至家具都有自己的物联网芯片,可以通过一个或多个中枢来进行随时随地的控制,但现实生活中不可能每个家庭都能达到如此高的“智能化”,老家电的占比依然很高,所以更符合现实的设计就是接管功能,这也正是天猫精灵IN糖3 Pro在AIoT领域习得的新本领,它可以学习红外遥控器功能,即便是红外码库外的老家电也可以学习,官方资料显示覆盖了3000多个主流家电品牌。

通过我们的测试来看,只需要在手机上打开天猫精灵App,选择和格力空调润享(2017年老家电)对应,它就会开始自动搜索并完成配对,需要花的时间因不同电器而异,短的几秒,长的也就两三分钟,还是挺迅速的。

配对完成后,就可以唤醒内置的360°全向红外发射器,对房间内刚刚配对的家电进行语音遥控了,比如发出“调到23度”的指令等等,完成降温操作

而且在学习完成后我们又通过手机端的天猫精灵App遥控家电,比如操控易开得A9净水器:在出水口放下水杯,发出语音:“天猫精灵,200ml的常温水”,里面就有28度的常温水按毫升量准确流出,这个功能尤其适合家里有老人小孩或宠物的家庭。

声学优化,音量充沛嚼字清晰

因为智能音箱往往需要放在家里比较显眼的位置,所以外形设计也是需要细细考究的,天猫精灵IN糖3 Pro采用了类似经典录音机的设计思路,圆润的长方体身段长度不超20cm,高度不到10Cm,体型小巧简约。两个5W功率扬声器朝前,中间是一块显示屏,顶部巨大的旋钮方便调整音量,按下就能一键麦克风静音,旁边则是屏幕开关和蓝牙连接按钮,没错,天猫精灵IN糖3 Pro也可以当作一台传统蓝牙音箱来使用,还可以用它接打电话。

从音乐播放效果来看,这款199元的音箱是完全值回票价。得益于一体腔设计专利,倒相式声学结构有效提升音质,配合大音腔和HIFI模拟公放,让大声场可以充满数十平米的空间而不突兀,低频更自然。

用作语音对话,或者给孩子讲故事、讲知识、聊科普,机器“吐”字非常清晰。两个顶置麦克风拾音效果可打满分,我们在嘈杂办公室内测试,距离1米用正常甚至私聊的低音量语音交互,也能唤醒机器并以较高的准确度识别命令。

颜色方面,天猫精灵IN糖3 Pro有黑色和白色两种颜色可选,这种经典色系的环境适配性是很强的,唯一的遗憾就是黑色版的电源是白色的,如果可以实现同色设计就更容易融入环境了。

 

总结:第一代AIGC硬件真的要来了

智能音箱在过去几年技术进步不明显,大多在外观上做文章,智能交互能力有限。而随着人工智能大模型的快速发展,具备强理解能力的智能音箱很有可能开启新一轮的智能终端热潮,并扩充到更多场景之中。

 

5月19日,天猫精灵一款升级了AIGC的工程机智能眼镜又在B站博主视频中引发关注,意味着大模型具备有了从家庭中走到户外、从桌面数码产品变成随身穿戴设备的想象空间。

深厚的用户基础,足够多的交互数据,加上几年来的工程、声学积累,眼下正在形成正反馈,或突破近年来智能音箱细分领域疲软的状态,实现数据飞轮,是让人工智能大模型更快“跑起来”的第一个档位,其重要性不言而喻。天猫精灵具备了生成式大模型能力的硬件条件后,从语音助手变成更有情感的AI伙伴,让人不禁好奇,未来的智能设备到底还能发展成什么样子呢?