当前位置: 首页>新闻资讯>行业新闻

【原创】到底什么才是能够被计算机处理和理解的?

时间:2018-03-16

       人工智能近年一直很火,其中有一个重要的分支是自然语言处理(NLP)或自然语言理解(NLU),这个领域在早期语言学家的努力下经历过长期基于规则引擎的处理尝试,也被以统计分析为主的Deep Learning暴力冲击后差点迷失方向。现在很多人都认为知识图谱是下一个最有可能解决这个问题的一项技术。目前计算机的结构源于冯·诺依曼结构,它的核心能力就是存储和计算。那到底什么样的人类语言才是能够被目前的计算机处理和理解?是所有的吗?答案肯定为不是。

       首先对一个事物描述及理解主要涉及三个层面(符号三角理论):符号、概念、所指。语言是一种符号,本身变成符号时就人为隐含的附加了不同的概念,具体这概念的所指也是千变万化,有时候也是千奇百怪,同样的语境下每个人的所指可能均有差异,而且还具有动态变化的特征。笔者认为概念可以分抽象类和实体类概念,凡是可以通过实例化后在现实世界中找到映射实物的,都可以通过知识图谱及相关技术来实现机器处理和理解,例如“我要买车”这个理论上要让机器理解还是可行的,因为无论什么车总是可以穷举的(车>小汽车、卡车、玩具车、火车、公交车...),无非就是数据量大一点而已。只要把与诉求相关数据输入给计算机,根据输入数据通过知识图谱技术也好、其他处理技术也罢,总之是能计算出来一个符合买主诉求的,也就理解了买主的具体所指。

       但是,例如坚持、自律、分享、分配等与人行为相关的这种抽象类概念才是真正有难度的,有些概念是需要一个专家花大半辈子才能不断领悟并总结成心得。就拿分配对于一个企业的重要性举例,如果没有人一样的工作阅历,就算能够给机器喂一堆数据告诉它分配的含义、操作流程及厉害关系,它也不可能有企业管理大师一样的心得和领悟,也不可能深度理解分配的背后给企业带来的利弊,最多是一个懂“分配”及相关概念的小学生水平而已。现实中人对很多概念的理解是需要亲生经历很久并反反复复迭代的一个过程。我们很容易就会发现,与人行为相关的抽象概念实际上多了一个时间的维度。在不同的时刻,实体类概念“车”的所指还是“车”,但抽象类的就有可能会发生变化。就拿“我要坚持”这个概念举例,小学生可能指学习、年轻人可能指工作、老年人可能指养生,早上可能指锻炼、中午可能指午休、晚上可能指学习,等等。随时随地、时时刻刻都在变化,是没办法提前穷举出来具体的含义及所指的。这样就导致了一个问题,在处理这类抽象类概念时,例如当有很多人在同一语境下都说“我要坚持”的时候,其实是不能通过知识图谱这种预处理技术理解每个人说这句话的含义的,或者严谨一点说就算能处理,理解的准确度也是不够高的。反过来说能通过知识图谱技术处理的必然是能够提前穷举及能预处理出来的。

       另外,我们所说的图像和语音处理其实是并没有涉及到概念与所指关系这个维度的,它们经过处理存储到中计算机只有符号与概念的关系,在符号到概念这一层是可以进行计算的,例如可以从声音的振幅频率音色、图像的像素等维度去进行计算,这也是为什么图像、语音的识别取得了很大进展导致现在人们对人工智能充满了信心,但要注意识别不等于理解了,目前针对图像和语音内容的理解还是一样存在很大技术障碍的。概念到所指这一层关系往往还是需要通过人为经验主义判断的,例如一幅画上有一只狗,计算机也仅仅是从符号层面能够识别出来概念上这是一只"狗"而已,但计算机无法理解的是这只狗具体的所指,要理解就涉及到概念及所指的关系,这个关系可以理解为画这幅画的人的寓意(单身狗?讨厌的人?或真的单单就是一条狗?),寓意即概念到所指的关系,它同样是无法提前穷举的。

      很多人看待人工智能会持有两种对立观点,要么担心会取代人,要么就认为无法代替人。仔细观察这个世界就会发现任何事物在一定条件下都是有它的边界点,例如人类能达到的速度理论上的极限就是光速,也就是现有的技术是不可能超越光速的。笔者认为对人工智能的两种对立观点都是不严谨的,我们所需要做的应该是去寻找在某个领域机器能替代人类的边界在哪里。自然语言理解也是如此,我们只有找到了那个边界才能知道到底什么才是能被目前计算机处理和理解的。

      近些年有很多人在提量子计算机,笔者不太懂量子计算机的原理,但可以肯定的是以存储和计算为核心能力的冯·诺依曼结构式计算机是不能够满足人工智能的最终诉求的。

 

 文章版权由亿维讯同创所有,若转载请于明显处标明出处。