Tags 190 tags transformer 4 论文阅读 4 python 3 gradient descent 2 multi-head attention 2 neural network 2 self-attention 2 Shell脚本 2 注意力机制 2 神经网络 2 activation function 1 attention 1 attention inference 1 Attention Is All You Need 1 attention sink 1 backpropagation 1 bidirectional language model 1 big data 1 bigbird 1 bilstm 1 bilstm max pooling 1 chain rule 1 chinese font 1 classification 1 classification loss 1 container 1 contextual embedding 1 cross entropy 1 curse of dimensionality 1 damerau levenshtein 1 dead poets society 1 decoder-only 1 discriminative fine-tuning 1 docker 1 docker exec 1 docker run 1 dockerfile 1 Docker命令 1 Docker教程 1 dssm 1 edit distance 1 elmo 1 ELMo论文 1 esim 1 feature selection 1 flashattention 1 FlashAttention 1 font manager 1 forward propagation 1 gpt 1 GPT架构 1 GQA 1 gradual unfreezing 1 Henry David Thoreau 1 high dimensional data 1 hive 1 hive streaming 1 Hive UDAF 1 Hive UDF 1 http server 1 image classification 1 image preprocessing 1 infersent 1 InferSent论文 1 information retrieval 1 kv cache 1 KV缓存 1 language model 1 language model fine-tuning 1 language representation 1 linux 1 long context 1 longformer 1 loss function 1 machine translation 1 matchpyramid 1 matplotlib 1 matplotlibrc 1 Matplotlib中文乱码 1 mean squared error 1 memory leak 1 MHA 1 MLA 1 MQA 1 native sparse attention 1 natural language inference 1 noisy channel model 1 overfitting 1 performance optimization 1 positional encoding 1 process management 1 Python HTTPServer 1 Python UDF 1 Python画图 1 real-word error 1 relevance matching 1 sample sparsity 1 scaled dot-product attention 1 semantic matching 1 sentence embedding 1 seq2seq 1 shell 1 shell script 1 simple-http-server 1 snli 1 SNLI 1 softmax 1 sparse attention 1 spelling correction 1 static server 1 tensorflow 1 tensorflow graph 1 TensorFlow图 1 TensorFlow踩坑 1 text classification 1 text matching 1 transfer learning 1 Transformer架构 1 Transformer论文 1 udaf 1 udf 1 ulmfit 1 ULMFiT论文 1 universal sentence representation 1 visualization 1 volume mount 1 walden 1 word embedding 1 上下文词向量 1 中文字体 1 交叉熵 1 位置编码 1 信息检索 1 内存泄漏 1 分类问题 1 分组查询注意力 1 双向语言模型 1 双塔模型 1 反向传播 1 句向量 1 噪声信道模型 1 图像分类 1 图像预处理 1 均方误差 1 多头注意力 1 多查询注意力 1 大数据 1 大模型推理 1 字体配置 1 实词错误 1 容器管理 1 性能优化 1 拼写纠错 1 损失函数 1 摘抄 1 数学推导 1 数据可视化 1 文件共享 1 文本分类 1 文本匹配 1 显存优化 1 机器翻译 1 样本稀疏 1 梭罗 1 梯度下降 1 死亡诗社 1 注意力分布 1 激活函数 1 特征选择 1 瓦尔登湖 1 目录挂载 1 相关性匹配 1 稀疏注意力 1 维度灾难 1 编辑距离 1 自注意力 1 自然语言推理 1 词向量 1 语义匹配 1 语言模型 1 语言模型微调 1 警言 1 迁移学习 1 过拟合 1 进程管理 1 链式法则 1 镜像构建 1 长上下文 1 静态服务器 1 高维数据 1