您好,欢迎光临本网站![请登录][注册会员]  

搜索资源列表

  1. DATAWHALE-动手学深度学习PyTorch 笔记记录2 attention mask

  2. 【Attention中mask pad的weight的做法】 在attention中,对attention score进行softmax时,需要考虑到query与pad计算得到的score应该忽略。我们在处理时可以先正常地用高维tensor形式将所有score计算出来,然后根据key的句长将pad所在位置的weight进行mask掉。 下面的代码实现了给定二维tensor X,根据X_len将X中指定位置替换为value值。 def SequenceMask(X, X_len,value=-1e
  3. 所属分类:其它

    • 发布日期:2021-01-06
    • 文件大小:182272
    • 提供者:weixin_38523728