对于大多数人而言,打字并不是一种理想的界面。假如我们能和电脑说话,那么即使是最坚定的反机器分子,大概也会以更大的热情来使用电脑。但是,目前的电脑仍然又聋又哑。这究竟是为什么呢?
电脑在语音识别方面一直没有多大的进展,主要原因不在于缺乏技术,而在于缺乏眼光。每当我在语音识别的成果展示会或产品广告中,看到人们拿着麦克风说话时,我都很奇怪:难道他们真的忘了,说话最大的价值之一就在于能让双手空出来做别的事情吗?当我看到人们把脸贴近屏幕讲话时,我也很奇怪:难道他们忘了,能够遥控是使用声音的原因之一吗?而当我听到人们要求设计出能够识别出各个独立用户的语音系统时,我问自己:他们是不是忘了,我们是在和个人电脑说话,而不是在和公用电脑说话?为什么似乎每个人解决问题的着眼点都落在错误的方面呢?
原因很简单。直到最近,我们一直被两个带有误导性的观念所驱使。第一个观念是受到老式电话通信系统的影响,希望任何人在任何地方都能拿起话筒对电脑发号施令,而不需要和接线员对话,而且不管说话的人怎样南腔北调都无关紧要。另外一个挥之不去的想法来自于办公自动化——我们希望有一种会说话的打字机,我们对着它一口气不停他说,它能一字不差地把我们的口述转化成文字记录下来。由于大家一直只把注意力放在这两个方面,使我们拖延多年,始终无法实现一些更容易实现的(同时也是有用的)目标,即让电脑在高度个人化而且互动的环境中,识别并了解对话内容。
我们也忽略了说话在文字以外的价值。举例来说,今天的电脑需要人全神贯注。你通常都必须正襟危坐,同时把注意力放在互动的过程和互动的内容上。在走来走去时使用电脑,或在有多组对话时让它参与其中的一组,简直是不可能的。语音识别可以改变这一切。
能够在一臂远的距离之外使用电脑,是非常重要的事情。想象一下,假如你和别人说话的时候,他、她的鼻子尖老是凑到你的脸上,那是什么感觉!我们通常都隔着一定的距离与别人讲话,偶尔还会转过身去同时做些别的事情。甚至有时已经走到别的地方而互相看不见了,还在说着话。这种情况屡见不鲜。我希望有一部在“听力范围”之内的电脑,它必须能把说话的声音和周围的杂音(例如空调或飞机在头顶上飞过的声音)区分开来。
讲话胜于文字的另一个原因是,它可以有其他附带方式来传递信息。家里有小孩或养了宠物的人都知道,怎么样讲话可能比讲什么话更重要。说话的语气非常关键。例如,不管主人如何吹牛,说他、她宠爱的小狗如何如何,小狗似乎只对语调有反应,它内在的分析复杂词汇的能力基本为零。
说出来的话除了字面的意思之外,同时传递了大量的信息。讲话的时候,我们使用完全一样的字眼,可以表达或激情洋溢、或嘲讽、或愤怒、或闪烁暧昧、或曲意逢迎、或精疲力竭等等不同的情绪。在电脑语音识别的研究中,大家都忽略了这些细微的差异,更糟的是,把它们视为暇疵,而不是特点。然而,正是这些特质,使说话成为比打字更丰富的输入媒介。让电脑“听话”
假如你的外语能力还不错,但是还不到应对自如的地步,你会发现,要听懂饱受杂音干扰的新闻广播实在很困难。相反,对于一个能把外语说得极为流利的人而言,这些杂音充其量只是扰人罢了。识别语言和理解语言,二者密不可分。
目前,电脑无法像你我一样,先对某件事的意义建立共识,进而理解事物的意义。
虽然未来的电脑无疑会具有更多智能,目前我们仍不得不先设法解决机器的语音识别能力问题,而把机器的理解力问题搁置一边。一旦把这两项任务予以分化,路该怎么走就很清楚了,我们