Ziyic941 = 真正的火羽白 = 哈基米哈基米

2024-12-114.4k字4 分钟

11. RNN与LSTM

# 循环神经网络 (RNN) # 网络结构 RNN 的核心在于其能够处理序列数据。在每个时间步 ttt，它接收一个输入 x(t)x^{(t)}x(t) 和前一个时间步的隐藏层状态 h(t−1)h^{(t-1)}h(t−1)，并计算出当前的隐藏层状态 h(t)h^{(t)}h(t) 和输出 y(t)y^{(t)}y(t)。输入: 一个 one-hot 向量 x(t)∈RVx^{(t)} \in \mathbb{R}^Vx(t)∈RV，其中 VVV 是词汇表大小。词向量: e(t)=Ex(t)e^{(t)} = E x^{(t)}e(t)=Ex(t)。EEE 是

more...

2024-12-102.1k字2 分钟

10. 语言模型与词嵌入

# N-Gram 语言模型 # 基本概念 N-Gram 指的是在一段文本或语音中，连续出现的 nnn 个词。 # 马尔可夫假设与概率计算 N-Gram 语言模型基于马尔可夫假设，即一个词 xt+1x^{t+1}xt+1 的出现只依赖于它前面紧邻的 n−1n-1n−1 个词，而不是整个历史序列。因此，条件概率可以表示为： P(xt+1∣xt,xt−1,⋯ ,x1)=P(xt+1∣xt,xt−1,⋯ ,xt−n+2)P(x^{t+1} | x^t, x^{t-1}, \cdots, x^{1}) = P(x^{t+1} | x^t, x^{t-1}, \cdots, x^{

more...

2024-12-093.1k字3 分钟

9. 语义与实例分割

# 语义分割 # 目的语义分割的目标是对图像中的每个像素进行分类，为每个像素分配一个类别标签。 # 评测指标常用的评测指标是平均交并比 (mIoU) 和 F1 分数。交并比 (IoU)：计算预测区域与实际区域的重叠程度，公式为：IoU=TPTP+FP+FN=重叠面积总面积IoU = \frac{TP}{TP+FP+FN} = \frac{\text{重叠面积}}{\text{总面积}} IoU=TP+FP+FNTP=总面积重叠面积 F1 分数：是精确率和召回率的调和平均，公式为：F1=2TP2TP+FP+FN

more...

2024-12-084.2k字4 分钟

8. 目标检测

# 评价指标 # IoU（Intersection over Union，交并比） IoU 是衡量预测边界框（bounding box）与真实边界框重叠程度的指标。 IoU=A∩BA∪BIoU = \frac{A \cap B}{A \cup B} IoU=A∪BA∩B # mAP（mean Average Precision，平均精度均值） mAP 是衡量目标检测模型性能的综合指标，它结合了精度（Precision）和召回率（Recall）。单个类别的 AP（Average Precision）计算对一个类别，根据检测框的置信度从高到低进行排序。依

more...

2024-12-074.4k字4 分钟

7. 图像分类

# 评价指标 # 基本概念 TP（True Positive）: 真正例，指正例被正确地预测为正例。 TN（True Negative）: 真负例，指负例被正确地预测为负例。 FP（False Positive）: 假正例，指负例被错误地预测为正例。 FN（False Negative）: 假负例，指正例被错误地预测为负例。 # 核心指标准确率（Accuracy）: 模型正确预测的比例。Accuracy=TP+TNTP+TN+FP+FN\text{Accuracy} = \frac{TP + TN}{TP + TN + FP + FN} Accuracy=

more...

2024-12-065.4k字5 分钟

6. 人工神经网络优化算法

# 无约束优化基础无约束优化旨在找到使得目标函数值最小的参数。下降方法是解决这类问题的核心思想，其通用迭代公式如下： x(k+1)=x(k)+t(k)Δx(k)x^{(k+1)} = x^{(k)} + t^{(k)} \Delta x^{(k)} x(k+1)=x(k)+t(k)Δx(k) 其中，x(k)x^{(k)}x(k) 是第 kkk 次迭代的参数，t(k)t^{(k)}t(k) 是学习步长，Δx(k)\Delta x^{(k)}Δx(k) 是搜索方向。 # 线搜索（确定学习步长 ttt）线搜索是确定最优学习步长 ttt 的方法。精准线搜索（Ex

more...

2024-12-057.2k字7 分钟

5. 人工神经网络数理基础

# 从样本中学习 # 线性回归线性回归模型旨在找到一个线性函数 y=wTx+by = w^T x + by=wTx+b 来拟合数据，其中 www 为权重向量，bbb 为偏置项。 # 损失函数（MSE）均方误差（Mean Squared Error, MSE）是常用的损失函数，它度量了预测值与真实值之间的平均平方差： L(w,b)=1n∑i=1n(yi−wTxi−b)2L(w, b) = \frac{1}{n} \sum_{i=1}^{n} (y_i - w^T x_i - b)^2 L(w,b)=n1i&#x

more...

2024-12-044k字4 分钟

4. 视觉特征检测

# 边缘检测（Edge Detection）边缘是图像中亮度变化剧烈的区域，是图像最基本的特征之一。边缘检测旨在识别这些区域，通常包括以下步骤： # 边缘检测器边缘检测通常始于对图像进行平滑处理，以减少噪声影响。边缘的特征可以用梯度来描述：大小（幅度）：梯度的范数（L2 范数），表示亮度变化的剧烈程度。方向：θ=arctan⁡2(−dy,dx)\theta = \arctan2(-dy, dx)θ=arctan2(−dy,dx)，表示亮度变化的方向。边缘检测的基本条件是梯度幅度大于某个阈值。然而，这种简单的阈值处理可能导致边缘过厚，且阈值选择不当容易

more...

2024-12-035.1k字5 分钟

3. 视觉信息处理和编码

# 视觉信息处理 # 线性平移不变的图像滤波线性平移不变滤波器通常被定义为卷积操作，通过对图像和卷积核进行加权求和来实现。 (g∗f)(x,y)=∫−∞∞g(y)f(x−y)dy(g∗f)(x,y)=∑i=−∞∞g(i,j)I(x−i,y−j)(g*f)(x, y) = \int_{-\infty}^{\infty} g(y) f(x - y) dy (g*f)(x, y) = \sum_{i=-\infty}^{\infty} g(i, j) I(x - i, y - j) (g∗f)(x,y)=∫−∞∞g(y)f(x

more...

2024-12-026.4k字6 分钟

2. 人的视听信息系统

# 图像的分类常见的图像颜色模型包括： R（Red）、G（Green）、B（Blue）：一种加色模型，通过不同强度的红、绿、蓝光混合来产生其他颜色，常用于显示设备。 H（Hue）、S（Saturation）、V（Value）：一种基于人类视觉感知的颜色模型，H 表示色相，S 表示饱和度，V 表示亮度。 Y（Luminance）、Cb（Blue difference）、Cr（Red difference）：一种用于视频和图像编码的颜色模型，Y 表示亮度，Cb 和 Cr 表示色差分量。 Y（Luminance）、U（Blue difference）、V（Red difference）：与 YC

more...