Posts by Tags

ai

NaN problem of nn.MultiHeadAttention in PyTorch

1 minute read

Published:

MultiHeadAttention NaN 问题

nn.MultiheadAttention causes gradients to become NaN under some use cases · Issue #41508 · pytorch/pytorch · GitHub 这几天持续跟踪了一下 pytorch 实现的 nn.MultiHeadAttention 计算过程中出现 NaN 的问题。根本原因是 tokenizer 在左侧增加 padding token(只能在左侧加,在右侧加是错误的,LLM 自回归生成,无法跟在 padding token 后面继续生成),导致 causal mask 和 padding mask 合并之后存在 attention matrix 前几行整行被 mask 的情况。pytorch 对于被 mask 部分的处理方式是填充 float("-inf"),导致经过 softmax 计算之后,整行都是 NaN

hello

Hello!

less than 1 minute read

Published:

Hello! Welcome to my personal homepage.

learn

NaN problem of nn.MultiHeadAttention in PyTorch

1 minute read

Published:

MultiHeadAttention NaN 问题

nn.MultiheadAttention causes gradients to become NaN under some use cases · Issue #41508 · pytorch/pytorch · GitHub 这几天持续跟踪了一下 pytorch 实现的 nn.MultiHeadAttention 计算过程中出现 NaN 的问题。根本原因是 tokenizer 在左侧增加 padding token(只能在左侧加,在右侧加是错误的,LLM 自回归生成,无法跟在 padding token 后面继续生成),导致 causal mask 和 padding mask 合并之后存在 attention matrix 前几行整行被 mask 的情况。pytorch 对于被 mask 部分的处理方式是填充 float("-inf"),导致经过 softmax 计算之后,整行都是 NaN

How to build a personal homepage by academic pages?

2 minute read

Published:

这篇博客介绍了使用 [academicpages][2] 模板制作个人主页的基本步骤,以及个人的一些推荐设置。对于博客中任何表述不够明确的配置,都可以访问这个个人主页的 github 仓库 wangzhen0518.github.io 阅读相应文件了解详细内容。