1. 首页 > 资讯 > 生活资讯

KAN KAN 卷积结合注意力机制! 聊聊

第一类 基础线性层替换

KAN 层替换线性层 Linear:

更新关于LSTM、TCN、Transformer模型中用 KAN 层替换线性层的故障分类模型。

KAN 的准确率要优于 MLP,我们可以进一步尝试在常规模型的最后一层线性层都替换为 KAN 层来进行对比;KAN 卷积比常规卷积准确率有略微的提升!

第二类 并行融合模型

KAN卷积、GRU并行:

故障信号同时送入并行模型,分支一经过 KAN卷积进行学习,分支二利用 GRU 提取故障时域特征,然后并行特征进行堆叠融合,来增强故障信号特征提取能力。

2.1 定义 KANConv-GRU 分类网络模型

2.2 设置参数,训练模型

50个epoch,训练集、验证集准确率97%,用改进 KANConv-GRU 并行网络分类效果显著,模型能够充分提取轴承故障信号中的故障特征,收敛速度快,性能优越,精度高,效果明显!

2.3 模型评估

准确率、精确率、召回率、F1 Score

故障十分类混淆矩阵:

第三类 结合注意力机制

3.1 KAN 结合自注意力机制:

我们创造性的提出在利用 KAN 层提取的特征作为自注意力机制的输入,来进一步增加非线性能力,具体步骤如下:

1.输入嵌入:

首先使用 unsqueeze 将输入从 ([batch_size, input_dim]) 扩展为 ([batch_size, 1, input_dim]),以便兼容后续的操作。

使用 input_proj 线性层将输入从 ([batch_size, 1, input_dim]) 映射到 ([batch_size, 1, embed_dim])。

2.查询-键-值投影:

3. 重塑和转置:

4.计算注意力权重和输出:

5.输出重塑和映射:

通过这种方式,输入和输出的维度保持一致。自注意力机制通过计算每个输入元素与其他所有输入元素之间的相关性(注意力分数),并利用这些相关性来加权求和,更新每个输入元素的表示,从而捕捉到输入序列中元素之间的依赖关系。进一步加强了 KAN 输出信息对复杂特征的建模能力。

3.2 KAN 卷积结合通道注意力机制SENet:

KAN 卷积与卷积非常相似,但不是在内核和图像中相应像素之间应用点积,而是对每个元素应用可学习的非线性激活函数,然后将它们相加。我们在KAN卷积的基础上融合通道注意力机制,进一步加强了对特征的提取能力!

从对比实验可以看出, 在轴承故障诊断任务中:

KAN卷积融合注意力机制后,效果提升明显,后续还可以进一步尝试与其他类型的注意力机制做融合!

本文转载自​​,作者:

本网站的文章部分内容可能来源于网络和网友发布,仅供大家学习与参考,如有侵权,请联系站长进行删除处理,不代表本网站立场,转载者并注明出处:https://jmbhsh.com/shenghuozixun/33106.html

联系我们

QQ号:***

微信号:***

工作日:9:30-18:30,节假日休息