From 13b84bb37b3e5a41d7fbc9746933d7544b199d8d Mon Sep 17 00:00:00 2001
From: Aston Zhang <asv325@gmail.com>
Date: Wed, 26 Sep 2018 13:13:47 +0000
Subject: [PATCH] restore softmax reg

---
 chapter_deep-learning-basics/softmax-regression.md | 3 +--
 1 file changed, 1 insertion(+), 2 deletions(-)

diff --git a/chapter_deep-learning-basics/softmax-regression.md b/chapter_deep-learning-basics/softmax-regression.md
index 7c4a2681f..06c984129 100644
--- a/chapter_deep-learning-basics/softmax-regression.md
+++ b/chapter_deep-learning-basics/softmax-regression.md
@@ -123,8 +123,7 @@ $$H\left(\boldsymbol y^{(i)}, \boldsymbol {\hat y}^{(i)}\right ) = -\sum_{j=1}^q
 假设训练数据集的样本数为$n$，交叉熵损失函数定义为
 $$\ell(\boldsymbol{\Theta}) = \frac{1}{n} \sum_{i=1}^n H\left(\boldsymbol y^{(i)}, \boldsymbol {\hat y}^{(i)}\right ),$$
 
-其中$\boldsymbol{\Theta}$代表模型参数。同样的，如果每个样本只有一个标号，那么交叉熵损失可以简写成$\ell(\boldsymbol{\Theta}) = -\frac 1n  \sum_{i=1}^n \log (\hat{y}^{(i)})^{y^{(i)}}$。从另一个角度来看，我们知道最小化$\ell(\boldsymbol{\Theta})$，等价于最大化$-e^{\ell(\boldsymbol{\Theta})}=\prod_{i=1}^n (\hat{y}^{(i)})^{y^{(i)}}$，也就是说最小化交叉熵损失函数等价于最大化在对训练数据集所有标签类别的联合预测概率。
-
+其中$\boldsymbol{\Theta}$代表模型参数。同样地，如果每个样本只有一个标签，那么交叉熵损失可以简写成$\ell(\boldsymbol{\Theta}) = -(1/n)  \sum_{i=1}^n \log \hat y_{y^{(i)}}^{(i)}$。从另一个角度来看，我们知道最小化$\ell(\boldsymbol{\Theta})$等价于最大化$\exp(-n\ell(\boldsymbol{\Theta}))=\prod_{i=1}^n \hat y_{y^{(i)}}^{(i)}$，即最小化交叉熵损失函数等价于最大化训练数据集所有标签类别的联合预测概率。
 
 
 ## 模型预测及评价