掌握AI尚方宝剑：注意力机制-电子产品世界手机版

掌握AI尚方宝剑：注意力机制

智能计算作者：高焕堂时间：2024-04-12 来源：EEPW

1 前言

经过上一期的范例和解说，您对于相似度的计算，已经建立良好的基础了。就可以轻易地来理解和掌握注意力(Attention) 机制。这项机制在许多大语言模型( 如ChatGPT、Gemma等) 里，都扮演了极为关键性的角色。再看看最近声势非常浩大的Sora，其关键技术——DiT(Diffusion Transformer) 的核心也是注意力机制。

于是，本文就从上一期介绍的相似度(Similarity) 基础，继续延伸到注意力机制。此外，更重要的是：此项机制也是可以学习的(Learnable)，于是就来把它包装于NN模型里，成为可以训练的注意力模型(Attention model)。

典型的Attention 模型，包括两种：交叉注意力(CrossAttention) 和自注意力(SelfAttention)。本文就先来说明SelfAttention 模型的计算逻辑，及其训练方法。

2 以“企业经营”来做比喻

首先来做个比喻。例如，一个公司有三个部门，其投资额( 以X表示)，经过一年的经营绩效比率( 以W表示)，其营收额( 以V 表示)，如图1所示。

图1

这三部门投资额是：X=[10, 6, 2.5]，其单位是---百万元。经过一年的经营，其营收比率是：W=[2.0]，就可以计算出营收金额是：V=[20, 12, 5]。

接下来，公司的经营团队开始规画下一年度的投资方案，针对未来新的商业投资获利注意点，拟定一个投资预算分配表( 即注意力表)，然后计算出新年度的投资预算金额( 单位：百万元)，如图2所示。

图2

其中的预算分配表，可以是相似度矩阵(Similarity matrix)，亦即经由相似度的计算而来。现在，就来理解上图的计算逻辑，请观摩一个Python的实现代码：

# ax01.py

import numpy as np

import torch

X = torch.tensor([[10.0],[6.0],[2.5]]) # 投资额

W = torch.tensor([[2.0]]) # 经营绩效

V = X.matmul(W) # 计算营收

A = torch.tensor(

[[1.0, 0., 0.],

[0.9, 0.1, 0.],

[0.6, 0.3, 0.1]]) # 预算分配表

Z = A.matmul(V) # 计算分配额

print(‘n 投资预算额Z：’)

print(Z) #np.round(Z.detach().numpy()))

#END

接着，就执行这个程序。此时就输入X和W，计算出V值。然后输入相似度表A，计算出新年度的投资预算额，并输出如下：

3 使用Attention计算公式

在上一期里，已经说明了，相似度矩阵是直接计算向量的点积(Dot-product)，即将两向量的对应元素相乘再相加。然后，这相似度矩阵再除以它们的欧氏长度的乘积，将相似度的值正规化，就得到余弦(Cosine)相似度。而且，如果将上述的相似度矩阵，在经由Softmax() 函数的运算，就得到注意力矩阵(Attention weights) 了。例如，有两个矩阵：Q 和K，就能计算出注意力矩阵，如图3 所示。

图3

那么，就可以继续思考一个重要问题，就是：如何计算出Q和K矩阵呢? 答案是：可以由SelfAttention模型来预测出来。也就是，由输入数据X来与SelfAttention模型的权重Wq相乘而得到Q。同时，也由输入数据X来与这模型的权重Wk 相乘而得到K，如图4所示。

图4

当我们把上图里的Wq、Wk和Wv权重都放入SelfAttention模型里，就能进行机器学习(Machine learning) 来找出最佳的权重值( 即Wq、Wk 和Wv)，就能预测出Q、K 和V 了。并且可继续计算出A 了。

4 训练SelfAttention模型

现在就把Wq、Wk 和Wv 都放入SelfAttention 模型里。请观摩这个SelfAttention 模型的代码范例，如下：

# ax02.py

import numpy as np

import torch

import torch.nn as nn

import torch.nn.functional as F

class SelfAttention(nn.Module): # 定义模型

def __init__(self):

super(SelfAttention, self).__init__()

self.Wq = nn.Linear(1, 2, bias=False)

self.Wk = nn.Linear(1, 2, bias=False)

self.Wv = nn.Linear(1, 1, bias=False)

def forward(self, x):

Q = self.Wq(x)

K = self.Wk(x)

V = self.Wv(x)

Scores = Q.matmul(K.T)

A = F.softmax(Scores, dim=-1) # Attention_weights

Z = A.matmul(V) # 计算Z

return Z, A, V

model = SelfAttention() # 建立模型

criterion = nn.MSELoss()

optimizer = torch.optim.Adam(model.parameters(),lr=0.004)

# 输入X

X = torch.tensor([[10.0],[6.0],[2.5]])

# 设定Target Z

target_attn = torch.tensor([[20.0],[19.0],[16.0]])

print(‘展开训练1800 回合...’)

for epoch in range(1800+1):

Z, A, V = model(X) # 正向传播

loss = criterion(Z, target_attn) # 计算损失

optimizer.zero_grad() # 反向传播和优化

loss.backward()

optimizer.step()

if(epoch%600 == 0):

print(‘ep=’, epoch,‘loss=’, loss.item())

# 进行预测

Z, A, V = model(X)

print(‘n----- 预算分配表A -----’)

print(np.round(A.detach().numpy(), 1))

print(‘n----- 投资预算额Z -----’)

print(np.round(Z.detach().numpy()))

#END

然后就执行这个程序，此时会展开1800 回合的训练。在训练过程中，回持续修正模型里的权重( 即Wq、Wk和Wv)，并且其损失(Loss) 值会持续下降，如下：

一旦训练完成了，就可以展开预测(Prediction)。此时，就计算出Q、K 和V，然后继续计算出A 和Z 值。

5 结束语

本期基于相似度计算，继续说明注意力机制的计算逻辑，建立SelfAttention模型，并且训练1800 回合，然后进行预测。

从这范例中，可以领会到SelfAttention模型能顺利捕捉到企业的经营规律，并进行准确的预测。

（本文来源于《EEPW》2024.4）

关键词：202404 相似度注意力机制

加入微信
获取电子行业最新资讯
搜索微信公众号：EEPW
或用微信扫描左侧二维码

电子产品世界

掌握AI尚方宝剑：注意力机制

相关文章

用户评论