十二年后 苹果欲用大语言模型Ajax带Siri“翻越屎山”
有了Ajax的加持,苹果公司对Siri改造的步伐正在加快。
十二年之前的2011年10月,苹果公司和其iPhone 4s系列一并公布了其语音助手Siri,这个功能在当时被外界寄予厚望。
当时,苹果公司高管、现任苹果院士的菲尔·席勒(Phil Schiller)在发布会上用一句话总结了Siri之前所有的语音界面的表现,称其“让人大失所望”,并高呼,“我们真正想要的,是跟自己的设备顺畅交流。”在席勒的眼中,Siri是一款“和蔼的个人助手”,能够连同苹果的智能设备为用户提供前所未有的交互体验。
从天堂到地狱
刚开始的蜜月期总是很完美,市场对Siri的初印象几乎是满分。科技媒体The Verge曾经断言,“Siri 最牛的地方就是它的工作原理——至少在大多数情况下,它的水平都能超出用户的预期。”;CNN 的观点则是,“它有点像我们梦想中的免费助理,随叫随到。”《纽约时报》也感慨,“Siri 帮我们节约了时间、消除了不必要的操作,并深刻改变了手机的定义。”
但是,和所有恋人一样,随着时间的推移,Siri的弊病也逐渐暴露在大众眼前:经常对用户指令做出错误判断、实际功能缺少跨越式提升、先发优势快速消退,以及语料库的捉襟见肘。
2012年,仅距离其发布不到一年,Siri就遭遇了三星系S Voice的全面绞杀;2014年,根据一项掌机科技的单挑测试,Siri在和谷歌系的Google Now测评中已经处于劣势。
2017年是Siri风评转向的关键一年,从这一年开始,用户对Siri的不满情绪开始蔓延,Siri逐渐从人见人爱的香饽饽,变成了人人喊打的过街老鼠。
在这一年,Siri换汤不换药地推出了全新的语音包,除了使其声音听起来不那么像机器人以外,没有什么其它的用处。Siri的即时翻译功能也在这一年姗姗来迟,苹果方面希望通过这一功能拉拢有实时翻译需求的商务人群以及旅游群体。另外,在这一年苹果还为Siri搭载了名为“内置学习”的功能,实际上就是今天大家习以为常的个性化推荐。
尽管做出了众多努力,但是市场已经对这些不痛不痒的更新感到厌倦。人们对高开低走的Siri期望越高,失望越大,就连此前大赞Siri的The Verge也开始反水,称其已“明显跟不上时代发展”。
笨拙的语料库设计成了Siri的最大掣肘
那么,活生生铸造了一个科技帝国的苹果公司,究竟在Siri上遇到了什么瓶颈?
答案是Siri笨拙的语料库设计。
根据Siri目前的用户交互生态,当用户向Siri提出指令后,Siri需要在数据库里提取对应的语料,才能理解用户指令的含义,这也被称为Siri的“命令-控制系统”。这种模式最大的缺点就在于:一旦Siri的语料库定型,那么它就很难理解原语料库以外的指令。假如用户想要扩展指令的范围和有效性,就只能靠工程师在数据库中添加新词,否则就是鸡同鸭讲。
一个很简单的比喻就是,可以把Siri想像成一个老式杂货铺,你想要购买什么商品就只能找售货员去拿。杂货铺的货就老老实实摆在那里,种类、样式短时间内不会发生变化,假如要买这里没有的东西,就只能叫售货员喊厂家进货。
Siri也是如此,只不过它进的不是货,而是语料。
要构建一个语音助手,Siri的数据库不可谓不庞大。据了解,Siri的数据库包含了近24种语言的大量短语列表,假如这些短语列表都按照一定比例进行填充的话,这些数据已经成为了一个庞大的雪球。在这些老祖宗留下的“雪球”中,有一些代码一改就崩,而另一些则是想改但是根本无从下手,这些祖传代码也就逐渐变成了程序员们口中常说的:屎山代码。
这也就是为什么大语言模型对生成式人工智能而言如此重要。假如没有大语言模型,再好的交互式科技也将一步步跌落神坛。目前市面上大火的Chat GPT和Bard等人工智能程序,都是通过不断在互联网上抓取大量的用户语料,来不断丰富自己的语言模型,以达到出色的交互效果。
但是,苹果却做不到这一点。究其原因,许多人认为是苹果对用户隐私的过度关注,使其无法像Open AI、谷歌等头部人工智能公司那样大量搜集用户数据,再利用这些资源改进自己的 AI 系统,使Siri显得越来越“愚蠢”。
苦等十二载 Siri终于迎来了重生曙光
好消息是,Siri十几年来不尽如人意的表现可能即将一去不复返。
日前,根据名记马克·古尔曼(Mark Gurman)的爆料,苹果公司已经完成了其大语言模型的基础框架,并将其命名为“Ajax”,定位为支持对话式AI系统,并已经将其应用在地图、Siri等功能上,做人工智能改进。
据了解,这项工作由苹果公司机器学习和人工智能主管约翰·詹南德拉(John Giannandrea)以及软件工程主管克雷格·费德里吉(Craig Federighi)共同领导,目前正在稳步推进中。根据詹南德拉透露,他希望采取更保守的方法,看看其他公司最近的发展如何演变。
据知情人士透露,这套大语言体系的最大用武之地,正是将其整合在Siri内部,能够让语音助手帮助用户执行更多任务。古尔曼也认为,苹果将其大语言模型技术整合到Siri中是一个理想的选择,因为这将允许语音助手代表用户执行更多任务。
而且,苹果开展大语言模型研究还有个天然的优势,那就是,掣肘众多大厂的算力支持在苹果公司这里根本就不是问题。根据苹果最新推出的“芯片怪兽”M2 Ultra,该芯片将两块M2 Max拼接在一起,拥有1340亿个晶体管,比上一代M1 Ultra多出200亿个。此外,由于有192GB的统一内存,M2 Ultra可以突破此前受内存不足,单独GPU无法处理大模型的桎梏,可以实现单台设备运行大型Transformer模型等庞大机器学习的工作负载。
有了Ajax的加持,苹果公司对Siri改造的步伐正在加快。据媒体透露,目前苹果公司的众多团队,包括从事Siri研究的工程师,每周都在定期测试“语言生成概念”。另外,苹果已经在tvOS 16.4中测试“Siri自然语言生成”的新框架,内部代号为“Bobcat”。
事实上,苹果公司的野心还不局限于此。根据媒体透露,除了想要在在自家应用程序上搭载大语言模型框架以外,苹果还基于Ajax创建了一个聊天机器人服务。对于该产品,苹果公司内部人士将其命名为“Apple GPT”,以对标Open AI公司的ChatGPT以及谷歌的Bard。
有意思的是,苹果手中的Ajax框架还是在去年基于谷歌JAX创立的,至今仍在谷歌云上运行。
出于对人工智能安全问题的担忧,Apple GPT项目自去年年底开展以来,定位始终局限在“一个小型工程团队的实验项目”。该系统需要特别批准才能访问,员工也不能使用Apple GPT的任何输出去开发面向用户的功能。古尔曼称,苹果目前正在积极地对Apple GPT做迭代,但是暂时没有向消费者发布该产品的计划。
苦等十二载,Siri终于迎来了重生的曙光。拥有了强大的模型和算力的加持,相信本次苹果公司对Siri的改造不会再浅尝辄止。正如评论所说,拥有15亿iPhone活跃用户的苹果,假如真的加入大模型战场,可以在顷刻间改变其格局。
我们也有理由相信,这一次,苹果会驾驶好Ajax,带Siri“翻越屎山”。
·原创文章
免责声明:本文观点来自原作者,不代表Hawk Insight的观点和立场。文章内容仅供参考、交流、学习,不构成投资建议。如涉及版权问题,请联系我们删除。