77页PPT剖析《认知与UI设计》学渣请勿自寻烦恼

2019年10月26日,UXRen在北京举办了《UI设计背后的认知规律和实践》的主题沙龙分享会,本文基于嘉宾郑昊(搜狗资深交互设计师,《UI设计与认知心理学》作者)的现场主题分享《认知与UI设计》总结而成。

 

活动笔记:

感谢各位同学,自我介绍一下,我叫郑昊。认知是一个特别复杂的学科,涉及到好多知识,而我对认知比较感兴趣,今天的分享是投石问路,我就那块石头,希望大家能把研究的注意力和思考的注意力聚焦到认知相关的知识上。

 

引子问题:

从眼睛进入的视觉信息,占大脑皮层中形成视觉的视觉信息的百分之多少?

这个是视觉通路的说明图,是认知心理学的一个知识。外界信息从眼睛到LGN之后,会往两个方向走,一个形成腹侧通路另一个形成背侧通路。也就是一个形成“你看到是什么”,另一个形成“这个东西离你有多远”。

这是最新的研究,就是主视觉皮层那块区域并不像我们想象的一样,是一个简单的、从下往上的一个回馈。它真正来自LGN的信息输入只占到10%,LGN从眼睛获得信息也不超过10%。你可以想一下眼睛到LGN,到大脑皮层形成视觉的过程。大脑皮层中的视觉信息90%是它自己产生的,只有10%是来自LGN。LGN当中视觉信息的90%由大脑皮层自己产生的,只有10%来自眼睛。

做一下乘法,你就会发现,即使是眼睛看到的数据信息完全进入大脑皮层,它至多只能占到10%,如果他不是至多10%的话,有可能眼睛实际进入大脑皮层的数据信息只有1%。也就是说大脑主要是在生产信息,而不是在接受信息。所以你应该把你的精力用于研究那90%左右的信息是怎么产生的、它是什么样的规律。

 

1. 《UI设计与认知心理学》一书的主要内容和结构

本书的结构第一从设计实现角度来讲比例构图、构建页面的具体结构、栅格系统、组织原则等等。

第二部分是主要的部分,从第八章一直到十六章是从认知智能的角度,就是你怎么处理信息的角度去做这个交互设计。第十章这里头有一个叫模因论,模因论就是把模因类比成基因。

第十三章和第十六章写的就更抽象一些,第十三章主要是讲人工智能的基础,第十四章是讲应用,第十五章就是和今天话题有相关的地方,就是VR、5G这些,第十六章是我研究生毕业论文,我个人认为没写完,又写了一遍,是从心理学角度去阐述,为什么我们设计和国外的设计是不一样的。

 

2. 举例认知与UI设计

我们先有一个感性认识,认知与UI设计有什么关系?这其中有两点。

第一个就是古腾堡定律与内隐记忆。古腾堡定律,大家都听过吧,(注:该法则描述了一个理论:人的眼球移动规律趋向于从上到下,从左到右,在视觉区域中,左上角通常为视觉起始点,右下角为视觉终点,而右上和左下是视觉落盲点。)也就是F形阅读。这是尼尔森·诺曼在2006年产出的一个结论,即人浏览页面的方式会形成一个F型的路径。

但是有个公司叫EyeQuant,他们是做一些眼动仪及其研究的。他们统计了大概是15万张前六秒人的注意力的热区图,它形成了大概这个结果。

EyeQuant就说尼尔森·诺曼的结论可能不太对,它不是F型的,他给出了很多结果。

你会发现这个图很多时候是居中或者是中间等等。于是EyeQuant公司的研究结论就是:有太多因素影响眼球运动,不用把F型法则当做金科玉律。他们在官网上发了一个帖子,这是他们这结论,底下是论文的网址,大家也可以自己看一下文章,判断一下EyeQuant说的对不对。

我们来了解一下古腾堡定律,如果大家不了解,我先来解释一下。古腾堡是一个德国人,他发明了独立印刷术,他认为人的阅览浏览页面的规律是从左上到右下的。左上是第一注意区,然后是右下,另外两个区域是最容易被人忽略掉的。

上方是热力图,大家可以看一下,这两个图其实是有关联的,热力图和古城堡定律大家注意看,最关键的点都是左边。比如当你做web导航的时候,你一般会把导航放到左上角,很少有人放在右上角。跟我们阅读习惯是相关的。读书写字都是从左开始的,所以热力图表现出来并不是彻底的居中或者是在右下,左边还是一个很重要的位置。第二点是2006年的互联网产品形态和现在互联网产品形态是不同的,过了十几年了,拿现在的数据说以前的事情,有效性是有限的。

另外,有几个反例它是没法解释的。大家有没有关注过阿拉伯语的网站,你会发现它的导航是倒过来的。我看了之后我以为是有个镜子,它其实是正确的,因为阿拉伯文是从右向左书写的。通过以上,我们可以认识到古腾堡定律其实还是起作用的,它是根据你的书写的方向形成的。

有关网页布局的规律,应该是:同时受到古腾堡定律以及产品自身因素的影响。那么EyeQuant公司做的那个研究有没有价值呢?是有价值的,它确实是往中间偏了,但是这是和产品的特性有关,因为06年之后越来越多电商的页面,包括纯展示的东西越来越多了,居中构图的情况也越来越多,很多吸引注意的图片放到中心位置了,所以它会影响整个观感。

古腾堡定律在认知心理学里实际就是内隐记忆。内隐记忆就是:无法通过有意识的过程而接触的知识。举个例子,骑自行车大家都会吧。如果我跟你说有本书教骑自行车,你看完了就能学会,这不可能对吧,你需要自己练习骑。你学会了之后,当你要教别人,你也没办法通过语言告诉他,你只能说你必须得练,这个就是内隐记忆。

生活当中有一个体验,我相信所有人都会有,就是不管是用是安卓还是iOS都会有一个问题,就是比如你把A左边的应用删了,iOS系统会让后面的应用自动补位,它会把A应用推到第一个位置,结果就是你每一次想要打开A应用时候很容易点错。这也是内隐记忆在起作用。

这是内隐记忆的分类,有四种。骑自行车与古腾堡定律和第一种程序性记忆比较相关。第二种是知觉表征系统,大家听说过无意识设计吧,这就和知觉启动是相关的。条件反射就不用说了,巴甫洛夫的狗玩摇铃它就流口水。非联想学习中的习惯化和敏感化是什么意思呢?就是比如说你家里有一个空气净化器,打开的时候你会感觉它发出的噪音很明显,但是过一段时间你又不太注意它的噪音了,就是习惯化。

敏感化是什么呢?烟尘和污染的空气非常刺激呼吸道,所以一旦雾霾 ,呼吸道不好的人就会非常敏感,非常难受。比如说北京的雾霾,一开始可能不太注意到它,但是在北京待十年的结果是只要看天,我就能估算出这个pm2.5是多少值,正负不超过50,非常精准。比如一看今天这个天气情况,我猜污染指数有150,一查手机大概130左右。这就是敏感化,你对这个刺激的信息处理会变得更快。

画表情的秘诀,这个是其中一个例子,它涉及到一块脑区叫梭状回面孔区。大家可以看一下,这些表情有一个什么样的共同点。

大多数的表情是没鼻子的,或者鼻子特别小。再看一下这两张图片,有什么明显差异么?

这两个照片差异非常明显,这个叫撒切尔效应。这时候你感觉还行,两个人可能眼睛不太一样,但是当把照片导过来的时候,反差就特别大,你就感觉右边那不是个人,对吧?

这叫面孔倒立效应,只有正立的时候,才能有效识别面孔。就是必须得形成倒三角你才能有效识别一张面孔。鼻子并不参与三角区的方向判定。

你会发现插座也会被当成表情,面孔倒立效应的基础是部分神经的特异化,部分神经元是专门用来处理面部信息的,识别人的情绪对人的认知是很有作用的。快速地判断一个人的情绪,对社会化动物来说非常关键。有一块脑区专门处理人脸识别,识别情绪。

以上大家可以形成一个大概印象,就是认知心理学可能会和你的设计相关联,也说明了认知科学对UI的指导性,这是我的一个观点。右边是它的逻辑事实,书中尽量去证明这个观点。

 

3. 认知科学对UI设计的指导性

第一,广义的设计概念。想证明认知科学对UI设计的指导性,得先说清广义设计概念。我对它的定义是解决问题的目的与恰当方式的综合。

你想解决这个问题是吧?方式的综合前面还有一个恰当,我强调这个恰当。

第一个先说他目的性,比如说你设计一个汽车、设计一个界面、设计一个流程,是有目的的,不是无目的的。第二是设计是解决问题的恰当手段,设计是你要找一个恰当的解决方法。比如你累了怎么办,你可以造个沙发、设计个躺椅。还有各种各样的方式,哪一种方式是最恰当的方式,是设计出来的。这都是各种各样能解决你累了的一个手段,但是你一定要找到那个最合适的。

这个之后我们还要定义一下UI的概念,这也是我个人的观点和定义。就是解决虚拟界面信息传输问题的目的与恰当方式的综合。

我是交互设计师,我没有用比如说交互或者视觉这个概念,因为我认为这个概念有些窄,并不是说我区分不了视觉设计师和交互设计师。别人问你如何区分交互设计师和UI设计的时候,你就用一句话就能区分:你和界面之间有没有一次以上的信息互动?如果有,那就是交互要介入,如果没有一次就够了,基本就是视觉的活。

传统设计的目的、主题和体验公式。首先传统设计处在两个过程的中间,第一个是“人-自然“中间,也就是人造物,就是你要通过你设计的工具去改造自然。种个地、开个矿等,你设计这个东西是在告诉别人怎么用。比如说不能把门把手放到转轴的内侧,他一定放到转轴的外侧,这个门把手就是在提示我们怎么去操作这门,怎么推这个门。这是基于材料及其加工工艺的造型理论。

另一个就是设计处在“人-人造物-他人“的认知过程中间。它所具有的特性是示能性与自我定位。比如说我穿衣服,你会发现我没有一个红色和绿色的衣服,我喜欢穿蓝色,黑色等,这实际是对自己身份认识的一种构建,向别人传达出一种信息的设计物。传统设计都会包含这些信息,你住什么地方,穿什么衣服,看什么书,都会有这两个作用。

这是史上特别著名的穿丝袜的潮男叫路易十四。你会发现这个东西就是在两方面表达出传统设计的作用,第一个就是示能性。高跟鞋的形状一定是后边开口前面是收口的,因为你要把脚放进去。高跟提高你的身高。这个执杖宽头的地方是用来放手的,窄头的地方是用来杵地的。传统设计的主题是基于材料及其加工工艺的造型理论与设计实践,这是我的观点。我本科是学工业设计的,读研究生的时候也是学工业设计的,我发现我做的所有的事情都是围绕造型和工艺的造型理论。

举几个例子,轮胎演化过程、手机演化过程,你会发现材料的变化,造型的变化。

再来看一个深刻的例子。

这是一个著名的女设计师设计的,她为什么能做成这个东西?是因为她做这个东西的时候,出现了新的数学工具来帮助建筑造型,很多原有的建筑学派不愿意用这套东西,但是她非常激进,要用最新的数学工具来处理这个造型,才能做成这个建筑。

包括大家现在坐的车,你会发现曲面的车越来越多,车越来越漂亮,是因为数字化之后,加工的工艺更好了,能做出特别漂亮的曲面。原来为什么红旗特别贵?因为那是老师傅用锤子敲出来的,不是像现在数控技术就把它弄出来的。劳斯莱斯也都是敲出来的,所以很贵,想做很好看的曲面成本极高,但现在就成了很容易的一个事情。

传统设计的体验公式就是E=e*n,e是衰减的。e就是每一次使用的体验,比如说手机,你拿到手机的时候是一个体验,是一个e,用了多少次,n就是几。比如说我做一个椅子,用一次是e,用了多少回,它的乘积是整个体验。n是不会变的, e是唯一的关键,而且他每一次都一样。所以传统设计里对它的造型会非常看重,到底表现出什么东西,好不好用,会特别关键。

我再说一下UI设计的目的、主题和体验公式,UI设计的目的和传统设计不一样的地方是,它示能性更主要,自我定位更次要。我举一个例子,马云想用支付宝,不好意思,他也得跟我们用的一样。不管多有钱的人都好,还是只能用Facebook不太可能为这个人单独设计出一款来。也就是说UI设计是绝对平等的,只能说买个皮肤,你可以花钱,但大多数情况下,它的主体功能是不区分消费能力的,所有人用的支付宝都是一样。不管这个人多穷、多有钱。

所以UI设计更主要的是通过界面来告诉你这个东西怎么用,是比自我定位更重要的。所以我们主要考虑的是界面能不能告诉用户是干嘛用的,怎么用,这是最关键的。这和传统设计不一样,传统设计因为有材料成本的问题,一定会涉及到选择和自我定位的关系的问题。

UI的设计体验公式就是E=a*b*c*…*n。这里为什么用乘法而没用加法呢?大家知道有一个叫迷失度的一个概念,它是形容网页体验中,如果a是零的话,后面做再好也没有用。比如说用户找不到入口,到界面这卡在这了,这界面如果是0.1,那后边所有的转化率就全是0.1乘以这个系数。所以它并不要求每一个页面达到百分之百,但是它强调整体乘积一定是一个高值,比如说这个页面的转化率提高了,提高3%,下一页面降低5%,它是一个乘积的关系,每个页面都很重要,它是一个拉长的一个体验公式。最后乘以一个使用次数。

我们再回到认知心理学,我家有三本到四本心理学的书,来看看他们每个人是怎么定义认知心理学的。

斯腾伯格所著的是一本卖得比较好的书,大家可以看一下,认知心理学规定了研究范畴是什么,这是斯滕伯格写的,他认为认知心理学就是研究人如何觉知,学习、记忆和思考问题的。

下面这本书是三个人合著的,他们压根没有给认知心理学一个明确的定义,只是提到这是有关于思考者的心智的科学。但是他说的不是很具体,而是写了一堆研究对象,你把它抽象一下,会发现关键词实际和斯坦伯格的是一样,觉知、学习、思考、语言。

再来看第三个,艾森克和基恩干脆就没定义认知心理学是什么东西,他说现在这个东西是一个特别广泛的研究领域。

这三本书里头有两本书的第二章叫认知神经学,有一本是在第一章的第三部分叫认知神经学。我原本为我的书取名叫《认知与UI设计》,就是这个原因。很难把认知心理学和认知神经学切得特别开,它们的联系实际是很广泛的。

UI设计围绕觉知、注意、记忆与识别会有一些简单的例子。

视觉组织原则,这个是格式塔闭合原则,这是从神经学层面解释格式塔的闭合原则。就是有一个未封闭的图形,大家可以看到左边,你知道他是未封闭的,包括有那种特别的那种三角,有两个半圆,三个半圆,我们会把它脑补成一个闭合的图形,这个是有神经学基础的。

有个叫赫布定律,这个是什么意思呢?两个神经元如果彼此之间互相刺激,他的神经的突触就会变多,它表现在除了突触增多还有髓鞘增厚,都会使神经之间的联系变得更紧。

细胞集合的定义就是,人对信息整个识别过程是这样的,过去你接受过原始刺激,你会记住它,比如说右边这个完整的圆,你第一次看到这个圆,会形成刺激,再看这个圆又形成刺激,它会形成一个完整的赫布集合。等你再看到左边这个不完整的圆的时候,就是一个不完整的刺激,它会激活原来形成的赫布集合,让你产生错觉认为它是原来的完整的状态。识别和记忆是一体的。记得越少,识别越快。

意识和注意的模型与用户体验是相关联的。真正进入到意识的信息是少之又少的。因为人的视觉能看到的只是可见光。在一个很长的光谱中,视觉信息只占这么一点。人对视频信息的感知还有个体偏向,人对红黄蓝的敏感程度是不一样的,它只对部分色彩更敏感一些,更窄。

信息有一部分是无意识的,比如说心跳的声音,在环境特别安静的时候,你能听见心跳的声音,但是当你注意力在别的地方时,你会过滤掉它,心跳声就不进入你的意识了,但它实际是一直在发生的。

你要建立一个概念,就是用户能注意到的事情,是整个界面里头很小的一部分,大部分他什么都记不住,因为他没空。短时记忆的容量是非常少的,比如说让你记电话号码,一般大家都是以443或者344地记,会把它切割成几个块,这样会更容易记一些。

下面这是《艺术与视知觉》这本书里的一个实验。左上角的图案是他们用来做实验的图。你会发现这个图是一个特别拧巴的形状,首先它是不闭合的,不是完整对称的,设计师看到会非常不舒服。这个图是怎么做实验的呢?就是把这个图给你闪一下,就给你0.2秒或者0.3秒。看完之后让你回忆,回忆这个图是怎么构成的?右边这七种是大家回忆的,它有一个共同的特征,就是把它规律化。这个不是有意进行的,是你与生俱来的能力。把一个不规则的东西记成一个规则东西,是你本来的能力。

我们再看一下,我们把这个时间拉长,你会发现很有趣,第一个是字母A的演化。这原来是头牛,公元前1800年恐怖谷铭文里的文字,长得像左上角第一个。后边的人画牛很费劲,识别它、记忆它很费劲。就把它简化,简化,最后就变成拉丁字母。每一次他都在丢失视觉信息,每次都在不停的丢失识别,使它更规整。26个字母基本都是按照这种原理出现的,只不过它是一个特别长时间,跨度上千年,变成这种结果。

第二个是中国的鱼纹,这是李泽厚的书《美的历程》里的截图。你可以发现鱼纹的演化过程也这样,开始鱼纹真的是条鱼,后来这个鱼变成对称性了,上下对称的。到最后它已经不是鱼了,花了几百年时间变成这个样子。

谷歌的logo也是一样的规律。不停地进行简化,不停地进行识别。识别和记忆是一体的。每次记忆时一定会丢失信息,不管记什么东西一定会丢信息。记忆的东西比看的东西更少,当再识别的时候是拿剩下的东西来识别。这也是和人的认知相关的。

 

4. 科学研究的范式。

要想研究一个东西,得有一个合理的思维的过程,才能产生正确的思维的结果。思维能力和思维形式会决定思维产出。

我们看一下概念和命题,这是柏拉图的三段论。我举个例子,大前提是希腊人是勇敢的人。小前提是雅典人是希腊人,结论是雅典人是勇敢的人!这是一个特别标准的三段论推理,大前提小前提,不停地缩小集合的范围,得到这个结论。

但是问题是什么?这个语境里头我没有解释这几个概念:雅典人的概念是什么?如果你注意土耳其的地图,你会发现爱琴海那一块靠近土耳其大陆的很多岛是希腊的,特洛伊现在应该是更靠近土耳其一些。雅典人的概念就是伯罗奔尼撒半岛上一个地区的人叫雅典人,但整个希腊实际是一个特别宽泛的概念,它并不是原来的半岛,而是把周边很多岛屿,甚至靠近罗马的岛都扩到希腊地域里,所以这是一个问题。希腊人的概念又是什么?我也没说。我尽管做了推理,我没说勇敢的人的概念是啥。有个坏人在行凶,你用声音制止了还是用行动,能不能作为判断这个人是否勇敢的标准?在你说出一个推理命题的概念的一刹那,实际上已经把这个东西表达出来,但是在这个命题里是没有说的。

我说得有点绕,其实我想表达的意思是:做推理的时候,推理里的概念,你是不可能在这个推理里头说出来的。你想把这个概念进行规定的时候,还得通过其他语言和其他概念来说这个概念。比如说我们学的数学几何,是基于欧几里得的五大公理,五大公设。有了这个东西,才有推理和判断的基础,它是先于命题存在的。如果不对UI进行定义,如果不对设计进行定义的话,我写这本书就是一个很扯的一个事情,因为并没有形成自己的观点和基础。只有形成观点和基础了,才能围绕这个东西进行推理,哪些是合理的哪些是不合理的。先有概念和命题,才有后边理论和假说。

要判断一个理论靠不靠谱,需要符合逻辑三恰。

第一个要逻辑自洽,就是你不能自己打自己的脸,你需要自圆其说。事实与逻辑相符,就是一个观点在你的学说里是兼容的,不能出现逻辑矛盾。

逻辑它恰是什么呢?你提出这个理论和其他理论不能产生矛盾,除非你能证明理论错了,或者在某些条件不适用,这个理论才是靠谱的,你不能和原来既有的公理产生冲突。

逻辑续洽是什么?就是新的场景、新的案例用这个理论还能解释的通满足这三条才是好理论,缺一条都不行。

 

5. 视角

这一章是从逻辑的视角去看一看,这套理论对不对。从认知的角度考虑设计对不对。认知角度本身对不对。

第一个叫逻辑自洽,在认知理论内部没有矛盾。

我举一个案例。这里有两个图,大家第一眼看上去它是怎么构成的?我用等式表示出来。会有人第一眼看上去认为它是最上方的方式或者是最下方的方式构成的吗?没有人会说这个图形是用这两个更复杂的方式构成的。但是你想没想过,为什么你第一眼看上去就是按中间这两个等式的方式构成的。因为这样理解认知成本最低,如果把一个你没见过的东西或者一个复杂的东西展示给你看,一定是按照你的记忆,还原成你接触过的最简单的一个构成。它会降低你认知的成本,如果记成奇怪的形状,一定会使你记忆成本更高。

第二,认知一定是要符合演化论。

人们对演化论的误解之一,就是认为越快越强越好,其实不是,而是适应。可能你更强、更聪明、更快,但是适应不了环境。

比如说为什么色盲基因还存在?

男性里头大概有7%-10%,女的还少一点。按理来说我们应该认识更多色彩,为什么色盲还存在?外界信息变成视觉信息主要是靠视锥细胞,它比较密,是在中凹附近。眼动追踪的时候,也主要靠中凹移动来看东西。视感细胞对色彩并不敏感,但是对明暗敏感。色盲在夜间视力很好,比如说晚上要偷袭猎物,或者是偷袭敌人,有色盲的部落会派出这些人,这些人夜间视力更好,会给种群带来生存优势。所以色盲基因没有消失是有意义的。非洲有一种镰刀形红细胞贫血病也是一个案例,拥有这个基因的人不容易得疟疾。但是如果没有疟疾情况下,他容易贫血、容易患各种各样的病。

现实视角的逻辑续洽,第一个就是能预测新的设计趋势,第二是解释新的实验现象。

第一个是扁平化是趋势而不是潮流。这个用左上角的一个图一下就能解释清楚。鸡尾酒的杯子一定是透明的。我们做的界面很多时候就是那鸡尾酒的杯子,大家能理解扁平化是什么原因了吧?因为网速越来越快了,各种各样酷炫的东西越来越多,信息量越来越大,就相当于鸡尾酒里有颜色的酒,颜色越来越多。如果用一个不透明的杯子,或者透明度不够好的杯子,看不出里头的颜色。所以扁平化是一个趋势,不是潮流。

这是我前两天看到的一个帖, 2019年发的一个论文,叫图标样式对可用性的影响。大家可以自己去翻这个论文,很有意思。

测试结果是:最不易识别的是最右边这组。中间是识别度比较高的,这个解释特别简单:过度简化导致识别困难。意思是简化信息的时候,不是一减到底就是好。比如说前面的例子从牛到A的过程,你不能上来就给埃及人拿了一个A,他不认识。Instagram改版为什么受到热议?因为它突然之间扁平了,没有渐进过程,咣叽就变成一个特别扁平的图标,它的纹理和它的图形都发生了变化,所以识别上会特别不舒服。我举过一个例子,比如说你慈祥的老母亲整成了张柏芝或者是高圆圆,你一定不会认为这是一件好事,你会感觉很难接受。

第二个测试结果是这次识别度高的是右边的,中间的识别度是低的。测试结果是多数面型icon识别比线型icon更容易识别。这个是格式塔的描述方式,有阴影的图形只在内部成立,外部行成不了轮廓。线性图形则正好相反,是两向轮廓。

比如说我们看苹果图标,你不管它是从第一版还是到最后一版,他都是面性图标。

因为苹果是个球,它是个实体,这个轮廓在苹果内部成立,就类似于这种感觉。后边是有阴影的,有外部的,因为你要聚焦,后边东西会虚化掉。它只在内部成立。

面形图标普遍比线性图标识别要快,只有三个反例,只有三个反例需要解释。

第一个图,咱先不看虚拟的,你会发现这两个图标线性识别度高,原因是因为它表面有条纹,这两个图中圾桶和钥匙都有条纹,所以用线性来表达的时候,效果更好。其他图标的实体都是曲面,不是条纹。没有参差不齐的边缘,而是曲面,是单向轮廓形成的。因此线型图标更容易辨认。

感受野是人的视锥细胞和神经节细胞的一个联系,不管刺激中心区域、刺激整体、刺激边缘都会有反应。和感受野关联的是神经节细胞,人类眼睛有很多神经节细胞,但这些细胞不是完全均等的点,而是一组点围绕一个中心形成一个组合一样的结构,外边一圈组合,中间有几个组合。

下图的这个就类似视网膜上的结构,神经节也是类似这种结构。当环境同时变亮的时候,刺激比较弱。同时变黑的时候,刺激也比较弱。只有在交界点的时候,反应最强烈。想象一下,当我们看到一个物体的轮廓的时候,细胞对它的反应最大,就形成一条边。这个实际上就是卷积核,人工智能卷积核就是模拟感受野形成的一个原理。

内积就是矩阵内的数字一个一个互相乘,乘完之后形成一个结果。卷积核模拟感受野的原理是:数字矩阵就相当于一个卷积核从最左边一直扫到最后一排,会形成不同的数值。比如说这个是我们要看的图像,比如说黑的会计算成1,白的会计算成0。用卷积核扫一遍就相当于在模拟人眼睛看到的东西,黑白区域之间就会形成一条边,就是我们所看见的轮廓。

这就是我们眼睛看到东西的原理,比如说我们现在做视觉识别,也是用这种特别简单的技术。卷积核实际是模拟人的感受野。

关键点是神经学是怎么解释面形图标和线性图标的不同的。当你看到全亮的东西和全暗东西的时候是有差异的。卷积核扫一圈之后,计算机会认为这个里头的东西和外头东西是一样的。对它刺激是一样的。所以只对边缘有认识。但人的神经比较特殊,它自带一个数值,它能识别出暗和亮。所以当你看一个面形图标的时候,你对轮廓里面黑色部分的认知和对轮廓外白色认知是不一样的,这叫单侧型的轮廓,而不是双侧型的。当你看到线性图标的时候,类似于计算机的感觉,但是你看到面形图标的时候,是人的感觉。

今天的分享就到此结束了。后面是Q&A环节。

感谢樂樂详实的记录。

5 条回复

  1. 头像 匿名说道:

    干活这么多,本学渣表示脑壳疼 ε=(#>д<)ノ

  2. 头像 匿名说道:

    太厉害了

  3. 头像 匿名说道:

    本学渣已经抱回家,感谢宝珠哥

  4. 头像 匿名说道:

    呃,看完了,感觉不是很明朗,还是要看书自己输出一下

  5. 头像 匿名说道:

    逻辑稀碎。

发表评论

电子邮件地址不会被公开。