4.4k4 分钟

# 循环神经网络 (RNN) # 网络结构 RNN 的核心在于其能够处理序列数据。在每个时间步 ttt,它接收一个输入 x(t)x^{(t)}x(t) 和前一个时间步的隐藏层状态 h(t−1)h^{(t-1)}h(t−1),并计算出当前的隐藏层状态 h(t)h^{(t)}h(t) 和输出 y(t)y^{(t)}y(t)。 输入: 一个 one-hot 向量 x(t)∈RVx^{(t)} \in \mathbb{R}^Vx(t)∈RV,其中 VVV 是词汇表大小。 词向量: e(t)=Ex(t)e^{(t)} = E x^{(t)}e(t)=Ex(t)。EEE 是
2.1k2 分钟

# N-Gram 语言模型 # 基本概念 N-Gram 指的是在一段文本或语音中,连续出现的 nnn 个词。 # 马尔可夫假设与概率计算 N-Gram 语言模型基于 马尔可夫假设,即一个词 xt+1x^{t+1}xt+1 的出现只依赖于它前面紧邻的 n−1n-1n−1 个词,而不是整个历史序列。 因此,条件概率可以表示为: P(xt+1∣xt,xt−1,⋯ ,x1)=P(xt+1∣xt,xt−1,⋯ ,xt−n+2)P(x^{t+1} | x^t, x^{t-1}, \cdots, x^{1}) = P(x^{t+1} | x^t, x^{t-1}, \cdots, x^{
3.1k3 分钟

# 语义分割 # 目的 语义分割的目标是对图像中的每个像素进行分类,为每个像素分配一个类别标签。 # 评测指标 常用的评测指标是平均交并比 (mIoU) 和 F1 分数。 交并比 (IoU):计算预测区域与实际区域的重叠程度,公式为:IoU=TPTP+FP+FN=重叠面积总面积IoU = \frac{TP}{TP+FP+FN} = \frac{\text{重叠面积}}{\text{总面积}} IoU=TP+FP+FNTP​=总面积重叠面积​ F1 分数:是精确率和召回率的调和平均,公式为:F1=2TP2TP+FP+FN
4.2k4 分钟

# 评价指标 # IoU(Intersection over Union,交并比) IoU 是衡量预测边界框(bounding box)与真实边界框重叠程度的指标。 IoU=A∩BA∪BIoU = \frac{A \cap B}{A \cup B} IoU=A∪BA∩B​ # mAP(mean Average Precision,平均精度均值) mAP 是衡量目标检测模型性能的综合指标,它结合了精度(Precision)和召回率(Recall)。 单个类别的 AP(Average Precision)计算 对一个类别,根据检测框的置信度从高到低进行排序。 依
4.4k4 分钟

# 评价指标 # 基本概念 TP(True Positive): 真正例,指正例被正确地预测为正例。 TN(True Negative): 真负例,指负例被正确地预测为负例。 FP(False Positive): 假正例,指负例被错误地预测为正例。 FN(False Negative): 假负例,指正例被错误地预测为负例。 # 核心指标 准确率(Accuracy): 模型正确预测的比例。Accuracy=TP+TNTP+TN+FP+FN\text{Accuracy} = \frac{TP + TN}{TP + TN + FP + FN} Accuracy=
5.4k5 分钟

# 无约束优化基础 无约束优化旨在找到使得目标函数值最小的参数。下降方法是解决这类问题的核心思想,其通用迭代公式如下: x(k+1)=x(k)+t(k)Δx(k)x^{(k+1)} = x^{(k)} + t^{(k)} \Delta x^{(k)} x(k+1)=x(k)+t(k)Δx(k) 其中,x(k)x^{(k)}x(k) 是第 kkk 次迭代的参数,t(k)t^{(k)}t(k) 是学习步长,Δx(k)\Delta x^{(k)}Δx(k) 是搜索方向。 # 线搜索(确定学习步长 ttt) 线搜索是确定最优学习步长 ttt 的方法。 精准线搜索(Ex
7.2k7 分钟

# 从样本中学习 # 线性回归 线性回归模型旨在找到一个线性函数 y=wTx+by = w^T x + by=wTx+b 来拟合数据,其中 www 为权重向量,bbb 为偏置项。 # 损失函数(MSE) 均方误差(Mean Squared Error, MSE)是常用的损失函数,它度量了预测值与真实值之间的平均平方差: L(w,b)=1n∑i=1n(yi−wTxi−b)2L(w, b) = \frac{1}{n} \sum_{i=1}^{n} (y_i - w^T x_i - b)^2 L(w,b)=n1​i&#x
4k4 分钟

# 边缘检测(Edge Detection) 边缘是图像中亮度变化剧烈的区域,是图像最基本的特征之一。边缘检测旨在识别这些区域,通常包括以下步骤: # 边缘检测器 边缘检测通常始于对图像进行平滑处理,以减少噪声影响。边缘的特征可以用梯度来描述: 大小(幅度):梯度的范数(L2 范数),表示亮度变化的剧烈程度。 方向:θ=arctan⁡2(−dy,dx)\theta = \arctan2(-dy, dx)θ=arctan2(−dy,dx),表示亮度变化的方向。 边缘检测的基本条件是梯度幅度大于某个阈值。然而,这种简单的阈值处理可能导致边缘过厚,且阈值选择不当容易
5.1k5 分钟

# 视觉信息处理 # 线性平移不变的图像滤波 线性平移不变滤波器通常被定义为卷积操作,通过对图像和卷积核进行加权求和来实现。 (g∗f)(x,y)=∫−∞∞g(y)f(x−y)dy(g∗f)(x,y)=∑i=−∞∞g(i,j)I(x−i,y−j)(g*f)(x, y) = \int_{-\infty}^{\infty} g(y) f(x - y) dy (g*f)(x, y) = \sum_{i=-\infty}^{\infty} g(i, j) I(x - i, y - j) (g∗f)(x,y)=∫−∞∞​g(y)f(x
6.4k6 分钟

# 图像的分类 常见的图像颜色模型包括: R(Red)、G(Green)、B(Blue):一种加色模型,通过不同强度的红、绿、蓝光混合来产生其他颜色,常用于显示设备。 H(Hue)、S(Saturation)、V(Value):一种基于人类视觉感知的颜色模型,H 表示色相,S 表示饱和度,V 表示亮度。 Y(Luminance)、Cb(Blue difference)、Cr(Red difference):一种用于视频和图像编码的颜色模型,Y 表示亮度,Cb 和 Cr 表示色差分量。 Y(Luminance)、U(Blue difference)、V(Red difference):与 YC