# 图像的分类
常见的图像颜色模型包括:
- R(Red)、G(Green)、B(Blue):一种加色模型,通过不同强度的红、绿、蓝光混合来产生其他颜色,常用于显示设备。
- H(Hue)、S(Saturation)、V(Value):一种基于人类视觉感知的颜色模型,H 表示色相,S 表示饱和度,V 表示亮度。
- Y(Luminance)、Cb(Blue difference)、Cr(Red difference):一种用于视频和图像编码的颜色模型,Y 表示亮度,Cb 和 Cr 表示色差分量。
- Y(Luminance)、U(Blue difference)、V(Red difference):与 YCbCr 类似,也是一种亮度-色度模型。
- Y(Luminance)、I(In-phase)、Q(Quadrature):NTSC 制式中使用的颜色模型,Y 表示亮度,I 和 Q 表示色度分量。
# 人的视觉系统
# 人眼生理学与功能
视觉系统基本结构与功能
人的视觉系统由眼睛和大脑的视觉中枢组成,其基本功能包括:
- 感知光刺激:能够感知光并对明暗环境进行适应。
- 区分刺激:具备空间分辨率,可以区分不同的物体。
- 感知光刺激随时间的变化:时间分辨率约为 10-20Hz。
人眼的一大特点是能够主动对准和扫描外部刺激,从而形成清晰的图像,这使得人能够从环境中接收丰富的信息,并创建更复杂的图案和空间感知。
人眼光学系统
人眼的光学系统包括角膜、虹膜、晶状体、玻璃体和房水。
- 角膜:以固定的方式折射光线,无法改变形状。
- 晶状体:可以通过改变曲率来将不同距离的物体聚焦到视网膜上。
- 盲点:视神经无法感知的区域,位于鼻子侧面。
退化的人眼
- 老花眼:随着年龄增长,晶状体能够适应的最近距离逐渐增大。
- 远视眼:晶状体缺乏弹性或眼球前后距离太短。
- 近视眼:晶状体或角膜折射光线异常,或眼球前后距离过长。
- 散光:主要是由于角膜曲率不均匀,导致屈光(折射)异常。
人眼的细胞层
人眼的细胞层主要包括:
- 视觉细胞层:包括锥状细胞(约 700 万)和杆状细胞(约 1 亿),它们将光信号转化为电信号。
- 视锥细胞:短而粗,对强光敏感,能感知颜色。
- 视杆细胞:相对细长,对弱光敏感,不能感知颜色。
- 双极细胞层
- 神经节细胞层(约 100 万)
# 人的视觉通路与特征
# 视觉通路

视网膜上的视觉能力分布
- 在强光下,视网膜中央的中央凹视力最高。
- 在极弱光照条件下,靠近中央凹的区域(副中央窝)具有最高的敏锐度。
颜色适应
颜色适应与视锥细胞的视觉质量(视质素)退化有关。
- 暗适应:从亮到暗的环境,适应时间为 30-40 分钟。
- 亮适应:从暗到亮的环境,适应时间为 1-2 分钟。
亮度感知
- 人眼可感知的亮度范围:超过 。然而,人眼不能同时感知所有亮度,而是通过适应环境的平均亮度来感知对比度。
- 对比度:在平均亮度合适时,人眼感知的对比度(最亮/最暗)为 1000:1;而在平均亮度很低时,对比度仅为 10:1。
- 亮度辨别阈值:指感知亮度差异所需的最小亮度差,即 。相对亮度辨别阈值 随着亮度 的变化而变化。
- 主观感受:感知的强度与刺激强度成正比。相同亮度的物体在不同的背景下会引起不同的主观感受。
视觉感知中的神经反应
- 视网膜受到光刺激后,一些视觉神经会产生脉冲。
- 单个视觉神经的活动是由一定范围内视觉细胞的集体作用决定的。
- 侧向抑制:视觉细胞的活动受到周围细胞的抑制。这意味着感受野的内圈被激发时,外圈会被抑制。
Gabor 滤波器

Gabor 滤波器能模拟人类视觉系统中简单细胞对视觉刺激的响应,它通过高通滤波来压缩和过滤视觉细胞提供的信息流。
总结
人的视觉通路具有以下特征:
- 光学系统(瞳孔、晶状体、视网膜等)对空间频率具有低通特性。
- 视觉细胞对光强度有对数响应。
- 神经系统侧向抑制具有高通特性。
# 视觉暂留与运动感知
视觉暂留
视觉暂留是指光刺激和其产生的感知之间存在延迟。当物体移出视野时,其印象可在视觉系统中持续 0.1-0.4 秒。这是因为光受体细胞将光信号转换为神经电信号需要一定的时间。
残像
刺激停止后,会有一种挥之不去的感觉,称为残像。
- 正像:类似于实际刺激。
- 负像:黑白颠倒,颜色显示为互补色。
相继对比现象
对第二个光刺激的感知受到前一个刺激的影响。这是由于一些视觉神经元因长时间暴露在同一视觉刺激中而“疲劳”,导致感知到原始图像的互补图像。
特克斯勒消逝效应(Troxler's Fading)
当目光长时间聚焦在某一个固定点时,余光中的其他视觉刺激会慢慢淡化直至消失。这是因为视觉系统会自动忽略那些一成不变且无关紧要的刺激。
视觉运动感知
- 实际运动:由物体或观察者运动引起的运动知觉,是由于物体在视网膜上的成像位置移动导致的。
- 似动知觉:在特定条件下,人们将客观静止的物体看作是运动的,或将不连续的位移看作是连续的运动,这是一种错觉。
光流(Optical Flow)
光流用于计算连续帧之间像素的运动,其基本假设包括:
- 亮度(颜色)一致性假设:物体在视频帧序列中移动时,其对应的像素值保持不变。
- 空间一致性假设:图像中局部区域的点通常属于同一表面,因此它们的运动表现出一致性。
- 时间一致性假设:图像序列中对象的运动是逐渐变化的,很少出现突然跳跃或不连续。
眼动
- 眼睛转动范围:眼睛能够水平(两侧各 60 度)和垂直(各 40 度)移动,有助于克服中央凹的局限性,并保持对比度。
- 注视(Fixation):眼球停止扫描视觉环境并保持相对静止的一段时间,目的是将当前感知的目标聚焦在中央凹,以获取足够的细节信息。
- 注视由微眼跳、震颤和漂移等微小的眼动行为组成,以保持与目标的对准。
- 注视时长通常在 50-600ms 之间,其长短取决于任务难度和刺激属性。
- 眼跳(Saccade):注视之间快速、弹跳的眼动行为,用于将中央凹对准视觉场景的另一区域。
- 在眼跳期间,视觉被高度抑制。
- 眼跳可以是自主或非自主的,双眼同步或共轭。
- 眼跳的“计划”时间(潜伏期)通常在 100-1000ms 之间。
- 平均眼跳时长为 20-40ms,且与幅度线性相关。
- 眼跳一旦开始,其终点无法改变。
人类的视觉感知是由注视和眼跳交替引导的。
# 经典视觉现象和视觉错觉
- 弗雷泽螺旋错觉:经典的视觉错觉图。
- 知觉恒常性:我们在用有意义和可理解的方式组织感觉信息时,容易产生知觉恒常性。
# 人的听觉系统
# 听觉系统的组成
听觉基本通路
听觉基本通路包括外耳、中耳、内耳、内耳的输出和通往大脑的神经通路,以及大脑。
耳朵结构图

人类感知声音的过程
- 声波进入耳道,穿过外耳和鼓膜,引起鼓膜振动。
- 振动传递到中耳的锤骨、砧骨、镫骨,使其振动并放大声波。
- 力传递到内耳的耳蜗,使毛细胞弯曲并产生神经信号。
- 神经信号在听神经中转化为电信号,传输到大脑的听觉皮层。
- 在大脑中,神经信号被解码和理解为声音信息。
耳朵的各部分
- 外耳:耳朵的可见部分(耳廓)和耳道,负责收集声波并将其引导到耳道中。
- 中耳:位于外耳和内耳之间的空腔,由三块小骨组成,负责放大鼓膜的振动并传递到内耳。
- 内耳:包括听觉感受器(耳蜗)和前庭感受器。耳蜗是参与声音传播的主要部分,由螺旋状管和内有毛细胞的基底膜组成。
基底膜
基底膜是声音的机械能转化为神经信号的关键器官。
- 结构:基底膜固定在耳蜗内,是一个从基底向上弯曲的带状结构。
- 运动机制:耳蜗管中传播的压力波在侧壁和基底膜之间产生阻力差,推动基底膜向上运动,使毛细胞刷动并产生神经信号。
- 特征:基底膜高度非线性,表现出高度的频率特异性和动态范围,能够对复杂的声音场景进行有效的编码、处理和过滤。
# 声音的感知与掩蔽效应
声音的感知
- 响度:人对声音强度或音量的感知。
- 音高:对声音高低的感知。
- 音色:对声音质量的感知。
听觉范围

掩蔽效应
掩蔽效应是指在其他声音存在的情况下,某些声音变得不清楚甚至听不见。低于能谱掩蔽频率的信号不需要比特分配。
- 频域掩蔽:当两个音频信号频率接近时,高强度频率会掩盖低强度频率。
- 听力阈值会随着频域掩蔽曲线和听力阈值曲线的变化而改变。
- 时域掩蔽:瞬时声音会使得前后邻近的声音听不见。
- 前向掩蔽:掩蔽效应持续时间短。
- 后向掩蔽:掩蔽效应持续时间长。
- 被掩盖的声音的阈值会随着时间呈指数下降。
- 噪声掩蔽:噪声会降低人们对另一种声音的敏感度,使听力阈值发生变化。
# 听觉定位
人类的听觉定位
人类的听觉定位能力在正前方最准确(2-3.5度),在背面(20度)和侧面较差。
定位线索
听觉定位依赖于以下线索:
- 双耳线索:
- 双耳时差(Interaural Time Difference, ITD):前后方向的 ITD 为 0,侧面最大为 660μs。
- 耳间强度差(Interaural Level Difference, ILD):头部阻挡高频声音到达另一只耳朵,形成“声影”,导致两耳的声音强度存在差异。ILD 随着频率增大而变大。
- 单耳线索:
- 头部相关传递函数(Head-Related Transfer Function, HRTF):耳朵和头部结构对声音产生过滤作用,导致接收到的声谱与声源位置有关。
- HRTF 描述了人耳在不同频率下的传输特性。
- 可以通过训练开发。
- 头部相关传递函数(Head-Related Transfer Function, HRTF):耳朵和头部结构对声音产生过滤作用,导致接收到的声谱与声源位置有关。
空间锥形区域声响混淆
在某个圆锥形的区域内,声源会产生相同的 ITD 和 ILD,导致声音定位混淆。这可以通过调整头部位置或利用单耳线索来部分矫正。
总结
- ITD 主要用于定位低频声源。
- ILD 主要用于定位高频声源。
- HRTF 主要用于定位落在同一音高轴上的声源。
# 听觉场景分析
听觉分组原则
人类通过以下原则对听觉信息进行分组:
- 位置邻近原则
- 时间相似度原则
- 音高和音色相似度原则
- 连续性原则
- 经验原则
鸡尾酒效应
人能够根据时间、空间、频率等信息来分离语音,但无法同时将注意力集中在多个语音流上。
相似度分组
- 在低速情况下,分组主要基于时间相似度。
- 在高速情况下,分组主要基于音色/音高相似度。
连续性原则
保持稳定音调或音调平滑变化的声音通常被归为同一组。
经验原则
熟悉或众所周知的旋律更容易被识别或分组。
# 人类信息处理
人类的信息处理能力是指从环境中接收、解释、存储和检索信息的能力,涉及感觉记忆、短期记忆、长期记忆、注意力、解决问题和决策。
# 记忆系统
- 感觉记忆(Sensory Memory)
- 定义:记忆处理的初始阶段,来自环境的信息被短暂存储在感觉系统中。
- 持续时间:几分之一秒到几秒钟。
- 类型:
- 图像记忆(Iconic Memory):与视觉相关。
- 回声记忆(Echoic Memory):与听觉相关。
- 短期记忆(Short-Term Memory)
- 定义:信息的临时存储,可以保存有限数量的信息。
- 持续时间:几秒钟到一分钟。
- 影响因素:
- 分块(Chunking):将信息分为有意义的单元,以提高记忆效率。
- 排练(Rehearsal):重复信息以将其保留在短期记忆中。
- 长期记忆(Long-Term Memory)
- 定义:更永久的信息存储,可以持续几分钟到一生。
- 类型:
- 声明性记忆(Declarative Memory):关于事实和事件的记忆。
- 程序性记忆(Procedural Memory):关于技能和动作的记忆。
- 影响因素:
- 编码(Encoding):将信息转化为可以存储在长期记忆中的形式。
- 检索(Retrieval):从长期记忆中访问信息。
# 注意力
- 定义:专注于环境的特定方面,过滤掉不相关信息的过程。它控制着用于感知和认知的资源数量。
- 分类:
- 选择性注意力(Selective Attention):专注于特定刺激而忽略其他刺激的能力。
- 分散注意力(Divided Attention):同时处理来自多个来源的信息的能力。
- 影响因素:
- 唤醒和动机:低唤醒状态会导致注意力下降,而动机可以增强对相关信息的注意力。
# 解决问题和决策
- 定义:用于识别问题、产生解决方案、选择最佳行动方案的认知过程。
- 影响因素:依赖于先前的知识、经验、注意力和工作记忆。
- 方法:包括试错法、算法方法等。
- 决策影响因素:认知偏差和情绪等。