时时彩官网 > 人工智能 >

陈天琦:人工智能语言输出的发展困境

  这些质疑并非空穴来风,索菲亚在语言输出上的表现很大程度上基于设计团队对问答的前期编写,而远未达到语言的自主表达和“自我意识”建立的水平。同时,语言表达的效度和可接受性离不开生理的语言习得机制和语义制约在内的人类语言感受,而人工智能仍处于“无心的机器”阶段,对语言的感受甚至是最基本的生理与心理感受都难以获取,只能通过程式和算法进行简单的、规则明确的、具广泛适用性的有限表达。通过分析现阶段人工智能语言输出与人类自然语言在产生、过程、表现上的区别与差距,人工智能在语言输出上的发展困境可作如下总结。但在这些发展困境的背后,也必须看到人工智能在语言输出上为更好地模拟人类自然语言所获得的突破和成就,比如语音识别技术的升级,多感官、多模态的识别,语言表达的完善等,这些均为人工智能在语言输出中的发展奠定了坚实的基础。

  关键词:人工智能;语言输出;语义;图式;语境;语言习得;识别;表达;机器人;交际

  美国汉森机器人公司生产的机器人索菲亚(Sophia)在2017年10月成为历史上首个获得公民身份的机器人后迅速走红,频繁出现在各国的电视节目、社交媒体、时尚杂志、音乐视频以及线下讲座论坛等活动中,其丰富的面部表情以及对问题流畅的回答引来人们的惊叹甚至是恐慌。但近来以Facebook人工智能实验室主任、深度学习专家杨立昆(Yann LeCun)为代表,评论其为“彻头彻尾的骗局”的反对声音又将其推向社会舆论的风口浪尖。这些质疑并非空穴来风,索菲亚在语言输出上的表现很大程度上基于设计团队对问答的前期编写,而远未达到语言的自主表达和“自我意识”建立的水平。

  人工智能在语言输出方面的发展受到广泛关注,因为语言是人类重要的交际工具和思维工具,承担着重要的社会作用,甚至在某种程度上可以说是人和其他动物相区别的重要标志。换言之,如果人工智能在完成“图灵测试”的基础上能输出与人类自然语言相近的语言,说明它在一定程度上已达到“类人”或“新兴人类”的标准,此时它与人类的关系与区别也将被重新审视。就目前的科学技术水平来看,人工智能语言输出与自然语言究竟有哪些难以逾越的显著差异,人工智能语言输出在发展中遇到了怎样的困境,这是值得探讨和回答的问题。目前,人工智能语言输出同自然语言存在如下差异。

  差异一:产生。关于人类自然语言的生成和习得,语言学界目前的主流观点以乔姆斯基(Noam Chomsky)的“天赋说”为代表,他认为在人的大脑中有一个特殊的语言习得机制(LAD)且掌握了一种普遍语法(UG),这种独有的生理现象经由遗传得到。儿童在已有语言习得机制这一生理基础上接受外界给予的环境刺激和信息输入,通过“咿呀期”“独词句”“双词句”“电报体”到“接近成人”等一系列阶段,逐步实现结构表达和词汇输出上的飞跃,同时依靠语言系统运转的核心——横向上构成线性序列的语言成分之间的“组合关系”及纵向上同一个结构位置上不同结构单位间相互替换的“聚合关系”,对语言规则加以吸收和运用,从而推动语言习得由量变走向质变。

  由于这一语言习得机制尚未得到实证且无法进行实验模拟,因此从本质上看人工智能只能从建构语言系统的组合关系和聚合关系着手,存储一系列语言规则和根据结构位置分类的语言单位,所用结构单位材料极其有限。同时,语言表达的效度和可接受性离不开生理的语言习得机制和语义制约在内的人类语言感受,而人工智能仍处于“无心的机器”阶段,对语言的感受甚至是最基本的生理与心理感受都难以获取,只能通过程式和算法进行简单的、规则明确的、具广泛适用性的有限表达。

  此外,人工智能向更高级别的推进离不开机器的“自主学习”。AlphaGo Zero通过三天的“自主学习”便战胜了与人类棋手对决中取得胜利的旧版本AlphaGo,这是根据固定的围棋规则不断进行自我纠正的结果。相比之下,语法规则和话语规则并非胜负这样简单,句子的可接受程度往往有一定的范围,判断时甚至不能仅凭某一说话人的语感而需进行一定规模的语言调查,且仍有较大比重的语言规则由于停留在主观层面而不可论证,用普通的算法和程式难以进行准确而全面的描写与限定。因此,人工智能在语言输出上要达到“自主学习”的程度绝非易事。人类在语言习得的过程中同样也离不开修正环节,这往往依靠外界环境纠正(如父母对儿童的纠正)和记忆、自省式纠正等,而这些同样建立在语言习得机制上。

  差异二:过程。语言交际以信息(message)为核心,以渠道(channel)为载体,在“编码—发送—传递—接收—解码”这一闭合式的信息交际轮中,要进行新一轮编码(encode)需先解码(decode),即“识别”与“理解”。人工智能目前在语音识别上已取得了很大进展,识别的准确度和信息的全面性已有较大提高,但“无心的机器”很难做到真正意义上的理解。目前人工智能的解决方法是建构词汇和结构在内的多个语义群,在解码中通过对关键词、句子基本结构的识别进行语义的归并,同时利用摄像头进行视觉跟踪和转移,扫描识别对方的面部表情来预测交际中的态度变化,并调动机器面部肌肉和肢体动作进行模拟,达成语言输出和行为外化的对应,索菲亚在这方面的表现尤为突出。但事实上这种“对应”与真正意义上的“理解”存在着本质差异。