多分类问题softmax传递函数+交叉熵误差

张

张建站

2026/5/15 16:52:03

10分钟阅读

在多分类问题中Softmax 函数通常与交叉熵误差函数结合使用。Softmax 函数Softmax 函数是一种常用的传递函数主要用于多分类问题中。它将一个实数向量转换为概率分布使得每个元素的值在 0 到 1 之间且所有元素的和为 1。Softmax 函数的数学表达式softmax(zi)ezi∑j1Kezj \text{softmax}(z_i) \frac{{\rm e}^{z_i}}{\sum\limits_{j1}^{K} {\rm e}^{z_j}}softmax(zi)j1∑Kezjezi其中ziz_izi是输入向量的第iii个元素KKK是向量的长度。Softmax 函数的实现在 Python 中可以使用 NumPy 库来实现 Softmax 函数。importnumpyasnpdefsoftmax(x):exp_xnp.exp(x-np.max(x))# 防止数值溢出returnexp_x/np.sum(exp_x)# 示例输入xnp.array([2.0,1.0,0.1])print(softmax(x))Softmax 函数的应用Softmax 函数广泛应用于机器学习中的分类问题特别是在神经网络的输出层。它可以将网络的原始输出转换为概率分布从而方便地进行分类决策。在使用 Softmax 函数时需要注意数值稳定性问题。由于指数函数的增长非常快直接计算ezie^{z_i}ezi可能导致数值溢出。为了避免这个问题通常会从输入向量中减去其最大值再进行指数计算。defsoftmax_stable(x):exp_xnp.exp(x-np.max(x))returnexp_x/np.sum(exp_x)Softmax 函数的梯度在反向传播算法中需要计算 Softmax 函数的梯度。Softmax 函数的梯度公式∂softmax(zi)∂zjsoftmax(zi)(δij−softmax(zj)) \frac{\partial \text{softmax}(z_i)}{\partial z_j} \text{softmax}(z_i) (\delta_{ij} - \text{softmax}(z_j))∂zj∂softmax(zi)softmax(zi)(δij−softmax(zj))其中δij\delta_{ij}δij是 Kronecker delta 函数当iji jij时为 1否则为 0。交叉熵误差交叉熵误差Cross-Entropy Loss是深度学习中常用的误差函数尤其在分类任务中广泛应用。它衡量模型预测的概率分布与真实标签分布之间的差异。对于有KKK个类别的多分类问题模型预测各类的概率为p[p1,p2,…,pK]p [p_1, p_2, \dots, p_K]p[p1,p2,…,pK]满足∑i1Kpi1\sum_{i1}^{K} p_i 1∑i1Kpi1则单个样本的交叉熵误差为L(y,p)−∑i1Kyilog⁡(pi) L(y, p) -\sum_{i1}^{K} y_i \log(p_i)L(y,p)−i1∑Kyilog(pi)由于yiy_iyi只有一个元素为 1其余为 0误差函数实际上只计算了正确类别的预测概率的对数。对于多分类问题交叉熵误差的公式为L−1N∑i1N∑k1Kyi,klog⁡(pi,k) L -\frac{1}{N} \sum_{i1}^{N} \sum_{k1}^{K} y_{i,k} \log(p_{i,k})L−N1i1∑Nk1∑Kyi,klog(pi,k)其中yi,ky_{i,k}yi,k是样本iii在类别kkk上的真实标签0 或 1pi,kp_{i,k}pi,k是模型预测的样本iii属于类别kkk的概率KKK是类别总数。假设真实标签为one hot编码向量yyy只有一个元素为 1其余为 0交叉熵误差的公式简化为L−1N∑i1Nlog⁡(pi,j) L -\frac{1}{N} \sum_{i1}^{N}\log(p_{i,j})L−N1i1∑Nlog(pi,j)jjj为样本iii的真实类别。交叉熵误差函数源于信息论中的交叉熵概念用于度量两个概率分布之间的差异。在分类任务中真实标签分布可以视为一个确定的分布如独热编码。模型预测分布是模型输出的概率分布。交叉熵误差函数通过计算这两个分布的差异指导模型优化使预测分布尽可能接近真实分布。交叉熵误差当预测概率与真实标签一致时误差值为 0。当预测概率与真实标签差异较大时误差值会迅速增大从而促使模型快速调整参数。代码示例交叉熵误差defcross_entropy(y_true,y_pred):return-np.sum(y_true*np.log(y_pred))# 示例标签和预测y_truenp.array([1,0,0])y_predsoftmax(np.array([2.0,1.0,0.1]))print(Cross Entropy Loss:,cross_entropy(y_true,y_pred))

CompileFlow架构深度剖析：阿里巴巴下一代高性能流程编排引擎的技术突破

CompileFlow架构深度剖析：阿里巴巴下一代高性能流程编排引擎的技术突破【免费下载链接】compileflow 🎨 core business process engine of Alibaba Halo platform, best process engine for trade scenes. | 一个高性能流程编排引擎项目地址: https:…...

2026/5/15 16:50:56 阅读更多 →

3步实战AI音频增强：让嘈杂录音秒变专业级音质

3步实战AI音频增强：让嘈杂录音秒变专业级音质【免费下载链接】resemble-enhance AI powered speech denoising and enhancement 项目地址: https://gitcode.com/gh_mirrors/re/resemble-enhance 在当今数字时代，我们每天都会遇到各种音频质量问题…...

2026/5/15 16:49:05 阅读更多 →

LunaTranslator终极指南：如何快速实现视觉小说实时翻译与语言学习

LunaTranslator终极指南：如何快速实现视觉小说实时翻译与语言学习【免费下载链接】LunaTranslator 视觉小说翻译器 / Visual Novel Translator 项目地址: https://gitcode.com/GitHub_Trending/lu/LunaTranslator LunaTranslator是一款开源的视觉小说翻译工…...

2026/5/15 16:47:05 阅读更多 →

2026年AI大模型API中转平台排名揭晓，诗云API(ShiyunApi)脱颖而出成省心之选

在AI开发领域，如何接入模型厂商的官方API是一个绕不开的现实问题。对于海外开发者来说，注册、绑卡、调用，三步即可轻松搞定。然而，国内开发者却面临着跨境网络波动、外币支付门槛、发票合规需求以及多厂商Key碎片化管理等诸多“非…...

2026/5/14 15:34:04 阅读更多 →

CANN/catlass TLA张量详解

TLA Tensors 【免费下载链接】catlass 本项目是CANN的算子模板库，提供NPU上高性能矩阵乘及其相关融合类算子模板样例。项目地址: https://gitcode.com/cann/catlass 本文介绍 TLA 中的 Tensor。如果说 Layout 负责描述“逻辑坐标如何映射到内存”&#xf…...

2026/5/15 4:35:33 阅读更多 →

LinkSwift：解锁九大网盘高速下载的终极浏览器脚本解决方案

LinkSwift：解锁九大网盘高速下载的终极浏览器脚本解决方案【免费下载链接】Online-disk-direct-link-download-assistant 一个基于 JavaScript 的网盘文件下载地址获取工具。基于【网盘直链下载助手】修改 ，支持百度网盘 / 阿里云盘 / 中国移动云盘 / …...

2026/5/15 1:45:17 阅读更多 →