智能会话代理:话轮转换规则
冯志伟
1974年,Sacks(萨克思)等人指出,至少在美国英语中,话轮转换的行为是受一组话轮转换规则制约的。这些规则被应用于“合适转换位置”(transition-relevance place,简称TRP);在这些位置的语言结构容许转换说话人。
话轮转换规则(Turn-taking Rule)由a, b, c三个子规则组成,每个话轮的每个合适转换位置(TRP)应遵循如下规则:
a. 如果在某个话轮中,目前的说话人已经选择A为下一个说话人,那么,下一个讲话的一定是A。
b. 如果在某个话轮中,当前的说话人没有选择下一个说话人,那么,其他的说话人可以在下一轮说话。
c. 如果在某个话轮中,没有其他人参加下一个话轮,那么,当前的说话人可以接着参加下一个话轮。
在这个话轮转换规则中蕴涵着对话模型的许多重要结论。
首先,规则(a)提示我们,通过一些话段,说话人可以特意选定了下一个说话人。最明显的是问句,说话人可以通过问句来选择另一个说话人来回答他所提出的问题。像问答(QUESTION-ANSWER)这样的两部分结构被称为毗邻对(adjacency pair);其他的毗邻对还有:“问候”接“问候”(GREETING followed by GREETING),“称赞”接“自谦”(COMPLIMENT followed by DOWNPLAYER),“请求”接“准许”(REQUEST followed by GRANT)等。这些毗邻对和由它们建立的对话预期在对话模型中扮演着举足轻重的角色。
规则(a)还提示我们对于对话中的沉默(silence)进行解释。尽管在任何话轮之后都可能出现沉默,但是那些紧跟着毗邻对第一部分而出现的沉默是有意义的沉默(significant silence)。例如,下面的例子在括号中给出停顿的时间(以秒计算):
A: Is there something bothering you or not?
(沉默1.0秒)
A: Yes or no?
(沉默1.5秒)
A: Eh?
B: No.
因为A刚刚已经问B一个问题,这时的沉默可以理解为B拒绝,或者也许是B不喜欢回应(比如,对一个指责的请求说“No”)。相反地,沉默在其他地方,例如说话人结束一个话轮之后的停顿,通常就不能这样理解。
这些事实与口语对话系统的用户界面设计有关;由于语音识别器的速度还比较慢,这往往会导致用户受到对话系统中这些停顿的干扰而产生误解。
规则(a)还提示我们:说话人之间转换发生的地点不是任意的,合适的转换位置通常出现在话段的边界。
口语话段与书面文本中的句子还一些差别:口语话段常常较短,更可能是单一的从句;口语话段的主语常常是代词而不是名词或名词短语;口语话段中充斥着停顿、修正、复述等。
口语对话和书面文本的独白还有一个很重要的差别在于:书面文本中的句子和段落之间相对说来比较容易自动地切分,而口语话段和话轮的切分却非常复杂。
口语话段的边界识别非常重要。因为许多对话模型的计算都是以抽取的口语话段作为一个基本单元,我们必须切分口语话段的边界。
然而,口语话段的切分是很困难的,因为一个单一的口语话段可能被扩展为几个话轮,而一个单一的口语话轮也可能包括好几个更小的口语话段。
例如,在下面旅行智能代理和客户之间的对话片断中,旅行智能代理的话段展开为三个以上的话轮:
第一个话轮:
A: Yeah yeah the um let me see here we’ve got you on American flight time thirty eight.
C: Yep.
第二个话轮:
A: leaving on the twentieth of June out of Orange County John Wayne Airport at seven thirty p.m.
C: Seven thirty.
第三个话轮:
A: and into uh San Francisco at eight fifty seven.
但是,在下面的例子中,三个话段却在一个话轮里:
A: Three two three and seven five on(第一个话段). OK and then does he know there is a nonstop that goes from Dulles to San Francisco? (第二个话段)Instead of connection through St. Louis. (第三个话段)
由此可见口语话段切分的困难程度。

