import torch class MyRelu(torch.autograd.Function): @staticmethod def forward(ctx, input): # 我们使用ctx上下文对象来缓存,以便在反向传播中使用,ctx存储时候只能存tensor # 在正向传播中,我们接收一个上下文对象ctx和一个包含输入的张量input; # 我们必须返回一个包含输出的张量, # input.clamp(min = 0)表示讲输入中所有值范围规定到0到正无穷,如input=[-1,-2,3]则被转换成input=[0,0,3] ctx.save_for_backward(input) # 返回几个值,backward接受参数则包含ctx和这几个值 return input.clamp(min = 0) @staticmethod def backward(ctx, grad_output): # 把ctx中存储的input张量读取出来 input, = ctx.saved_tensors # grad_output存放反向传播过程中的梯度 grad_input = grad_output.clone() # 这儿就是ReLu的规则,表示原始数据小于0,则relu为0,因此对应索引的梯度都置为0 grad_input[input < 0] = 0 return grad_input
dtype = torch.float device = torch.device('cuda' if torch.cuda.is_available() else 'cpu') # 使用torch的generator定义随机数,注意产生的是cpu随机数还是gpu随机数 generator=torch.Generator(device).manual_seed(42) # N是Batch, H is hidden dimension, # D_in is input dimension;D_out is output dimension. N, D_in, H, D_out = 64, 1000, 100, 10 x = torch.randn(N, D_in, device=device, dtype=dtype,generator=generator) y = torch.randn(N, D_out, device=device, dtype=dtype, generator=generator) w1 = torch.randn(D_in, H, device=device, dtype=dtype, requires_grad=True, generator=generator) w2 = torch.randn(H, D_out, device=device, dtype=dtype, requires_grad=True, generator=generator) learning_rate = 1e-6 for t in range(500): relu = MyRelu.apply # 使用函数传入参数运算 y_pred = relu(x.mm(w1)).mm(w2) # 计算损失 loss = (y_pred - y).pow(2).sum() if t % 100 == 99: print(t, loss.item()) # 传播 loss.backward() with torch.no_grad(): w1 -= learning_rate * w1.grad w2 -= learning_rate * w2.grad w1.grad.zero_() w2.grad.zero_()
下一个:Kafka如果保证数据的可靠性