- 本文用
numpy
从零搭建了一个类似于pytorch
的深度学习框架 可以用于前面文章提到的
MINST
数据集的手写数字识别、也可以用于其他的方面Github:
以下的文字介绍在仓库中的
README.md
文件中有相同内容
神经网络框架使用方法及设计思想
- 在框架上基本模仿
pytorch
,用以学习神经网络的基本算法,如前向传播、反向传播、各种层、各种激活函数 - 采用面向对象的思想进行编程,思路较为清晰
- 想要自己手写神经网络的同学们可以参考一下
- 代码大体框架较为清晰,但不否认存在丑陋的部分,以及对于
pytorch
的拙劣模仿
项目介绍
用此框架编写了几个小项目作为验证程序,项目代码存放在同名文件夹中
MINST_recognition
:手写数字识别,使用
MINST
数据集训练30轮可以达到93%准确度,训练500轮左右达到95%准确度无法继续上升
RNN_sin_to_cos
:使用简单循环神经网络
RNN
层或者长短时记忆机LSTM
层,用$sin$的曲线预测$cos$的曲线在定义模块的地方
RNN
和LSTM
可以互相替换1
2
3
4
5
6
7class RNNPractice(mtorch.modules.Module):
def __init__(self):
super(RNNPractice, self).__init__(Sequential([
LSTM(INPUT_SIZE, HIDDEN_SIZE),
# RNN(INPUT_SIZE, HIDDEN_SIZE), # 这两个可以随便换
Linear3(HIDDEN_SIZE, 1),
]))
框架介绍
与框架有关的代码都放在了
mtorch
文件夹中使用流程
与
pytorch
相似,需要定义自己的神经网络、损失函数、梯度下降的优化算法等等在每一轮的训练中,先获取样本输入将其输入到自己的神经网络中获取输出。然后将预测结果和期望结果交给损失函数计算
loss
,并通过loss
进行梯度的计算,最后通过优化器对神经网络的参数进行更新。结合代码理解更佳👇:
以下是使用
MINST
数据集的手写数字识别的主体代码
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32# 定义网络 define neural network
class DigitModule(Module):
def __init__(self):
# 计算顺序就会按照这里定义的顺序进行
sequential = Sequential([
layers.Linear2(in_dim=ROW_NUM * COLUM_NUM, out_dim=16, coe=2),
layers.Relu(16),
layers.Linear2(in_dim=16, out_dim=16, coe=2),
layers.Relu(16),
layers.Linear2(in_dim=16, out_dim=CLASS_NUM, coe=1),
layers.Sigmoid(CLASS_NUM)
])
super(DigitModule, self).__init__(sequential)
module = DigitModule() # 创建模型 create module
loss_func = SquareLoss(backward_func=module.backward) # 定义损失函数 define loss function
optimizer = SGD(module, lr=learning_rate) # 定义优化器 define optimizer
for i in range(EPOCH_NUM): # 共训练EPOCH_NUM轮
trainning_loss = 0 # 计算一下当前一轮训练的loss值,可以没有
for data in train_loader: # 遍历所有样本,train_loader是可迭代对象,保存了数据集中所有的数据
imgs, targets = data # 将数据拆分成图片和标签
outputs = module(imgs) # 将样本的输入值输入到自己的神经网络中
loss = loss_func(outputs, targets, transform=True) # 计算loss / calculate loss
trainning_loss += loss.value
loss.backward() # 通过反向传播计算梯度 / calculate gradiant through back propagation
optimizer.step() # 通过优化器调整模型参数 / adjust the weights of network through optimizer
if i % TEST_STEP == 0: # 每训练TEST_STEP轮就测试一下当前训练的成果
show_effect(i, module, loss_func, test_loader, i // TEST_STEP)
print("{} turn finished, loss of train set = {}".format(i, trainning_loss))接下来逐个介绍编写的类,这些类在
pytorch
中都有同名同功能的类,是仿照pytorch
来的:Module
类- 与
pytorch
不同,只能有一个Sequential
类(序列),在该类中定义好神经网络的各个层和顺序,然后传给Module
类的构造函数 - 正向传播:调用
Sequential
的正向传播 - 反向传播:调用
Sequential
的反向传播 - 目前为止,这个类的大部分功能与
Sequential
相同,只是套了个壳保证与pytorch
相同
- 与
lossfunction
- 有不同的
loss
函数,构造函数需要给他指定自己定义的神经网络的反向传播函数 - 调用
loss
函数会返回一个Loss
类的对象,该类记录了loss
值。 - 通过调用
Loss
类的.backward()
方法就可以实现反向传播计算梯度 - 内部机制:
- 内部其实就是调用了自己定义的神经网络的反向传播函数
- 也算是对于
pytorch
的一个拙劣模仿,完全没必要,直接通过Module
调用就好
- 有不同的
优化器:
- 目前只实现了随机梯度下降SGD
- 构造函数的参数是自己定义的
Module
。在已经计算过梯度之后,调用optimizer.step()
改变Module
内各个层的参数值 - 内部机制:
- 目前由于只有SGD一种算法,所以暂时也只是一个拙劣模仿
- 就是调用了一下
Module.step()
,再让Module
调用Sequential.step()
,最后由Sequential
调用内部各个层的Layer.step()
实现更新 - 梯度值在
loss.backward
的时候计算、保存在各个层中了
Layer
类有许多不同的层
共性
- 前向传播:
- 接受一个输入进行前向传播计算,输出一个输出
- 会将输入保存起来,在反向传播中要用
- 反向传播:
- 接受前向传播的输出的梯度值,计算自身参数(如Linear中的w和b)的梯度值并保存起来
- 输出值为前向传播的输入的梯度值,用来让上一层(可能没有)继续进行反向传播计算
- 这样不同的层之间就可以进行任意的拼装而不妨碍前向传播、反向传播的进行了
.step
方法- 更新自身的参数值(也可能没有,如激活层、池化层)
- 前向传播:
Sequential
类这个类也是继承自
Layer
,可以当作一层来使用它把多个层按照顺序拼装到一起,在前向、反向传播时按照顺序进行计算
结合它的
forward
、backward
方法来理解:
1 | def forward(self, x): |
1 | def forward(self, inputs): |
1 | def backward(self, output_gradient, inputs=None): |