Heloowird


  • 首页

  • 归档

  • 分类

  • 标签

  • 关于
Heloowird

文本匹配深度模型综述

发表于 2020-09-17 | 分类于 学习 | 阅读次数
文本匹配任务文本匹配是自然语言理解的基础方向之一。具体的任务有:自然语言推理(NLI),问答(QA),释义识别(Paraphrase Identification)以及文本检索(Ad-hoc Retrieval)。本质上,文本匹配归结成给定两个文本,判定两个文本之间的关系,转化为分类问题或者排序问题。自然语言推理任务:给定一个前提条件(premise),判断另一个假设(hypothesis)与之相 ...
阅读全文 »
Heloowird

NLP论文阅读- Transformer

发表于 2020-03-08 | 分类于 学习 | 阅读次数
论文题目Attention Is All You Need (Transformer) 背景介绍RNN,特别是LSTM、GRU 在诸如语言模型和机器翻译等序列建模和转换问题上已经达到SOTA。然而RNN 天然地对并行计算不友好。 在RNN序列中,当前时刻隐层状态h(t) 依赖前一个隐层状态h(t-1) 和当前输入x(t) 。这种结构性问题导致RNN 训练时难以并行。 另一方面,注意力机制已经成了序 ...
阅读全文 »
Heloowird

Docker 使用最佳指南

发表于 2020-01-16 | 分类于 工具 | 阅读次数
基本概念 镜像(image) 容器(container) 粗浅的理解: 镜像相当于一个类, 容器就是根据这个类创建的对象。详细参考Docker从入门到实践 镜像又分为远程镜像和本地镜像。这两个和git类似, 一个是远程, 一个是本地。 实践指南 帮助命令 12345查看docker使用说明 docker --help查看具体command 使用说明docker command --help 常 ...
阅读全文 »
Heloowird

拼写纠错概述

发表于 2020-01-11 | 分类于 学习 | 阅读次数
拼写错误介绍在输入过程中,会存在拼写错误。拼写错误分为两类: 非单词拼写错误(non-word spelling error),即需要纠错的单词不在现有词典中,如把success 输错成succest 。 实单词拼写错误(real word spelling error),即需要纠错的单词存在现有词典中,如把there 输错成three 。 拼写错误一般由字母增删改、字母调换顺序等错误造成。在 ...
阅读全文 »
Heloowird

NLP论文阅读- ELMo

发表于 2019-11-17 | 分类于 学习 | 阅读次数
论文题目Deep Contextualized Word Representations (ELMo) 背景介绍预训练词向量是神经网络语言理解的基础模块。然而,如何得到高质量的词向量仍是一项挑战。获取高质量的词向量需要解决两个问题: 词语本身复杂的特性,如语法和语义 语境变化引发词语用法的改变,如一词多义 特别是第二点,传统词向量基本无能为力,如Word2vec。Word2vec 一般只看周 ...
阅读全文 »
Heloowird

NLP论文阅读- InferSent

发表于 2019-08-06 | 分类于 学习 | 阅读次数
论文题目Supervised Learning of Universal Sentence Representations from Natural Language Inference Data(InferSent) 背景介绍许多现代NLP系统依赖以无监督方式在大规模语料上训练得到的词向量,但鲜有大文本块(如句子)级别向量取得了成功。一些无监督地学习句子表示的尝试均未达到令人满意的结果,以至没有 ...
阅读全文 »
Heloowird

NLP论文阅读- ULMFiT

发表于 2019-08-04 | 分类于 学习 | 阅读次数
论文题目Universal Language Model Fine-tuning for Text Classification(ULMFiT) 背景介绍迁移学习对CV领域有着巨大影响,然而现存NLP领域的相关方法需要针对特定任务做相应修改,并从头开始训练。所以,本文提出了一种有效的文本分类的迁移学习方法—通用语言模型微调方法(Universal Language Model Fine-tunin ...
阅读全文 »
Heloowird

维度灾难

发表于 2018-03-29 | 分类于 学习 | 阅读次数
本文我们将讨论机器学习中一个经常被提及的概念— “维度灾难”,也有译作“维度诅咒”,以及其在分类问题中的重要性。接下来我们通过一个直观的例子来解释维度灾难z,例子来源于The Curse of Dimensionality in classification。 假设我们有一个仅有猫(🐱)和狗(🐶)图片集合,然后想建立一个分类器,用来区分出猫和狗。首先,我们需要构造一个数字描述来表示每个类别, ...
阅读全文 »
Heloowird

Hive UDF/UDAF 的Python 实现

发表于 2018-01-29 | 分类于 工具 | 阅读次数
之前习惯使用Hadoop Streaming 处理行文本,而目前主要使用Hive SQL 或者Spark 处理大数据。Hive 大部分数据格式为ORC 格式,不适合直接使用Hadoop Streaming。 一般情况下,Hive SQL 可以满足日常统计和特征提取,然而涉及复杂的数据逻辑处理,Hive 內置函数无法胜任。这时,需要用到UDF 或者UDAF。实际上Hive SQL 会被转化成map ...
阅读全文 »
Heloowird

TensorFlow 踩坑之内存和耗时不断增加的问题

发表于 2017-08-10 | 分类于 学习 | 阅读次数
问题描述使用finetune后的图像分类模型对一批图片进行特征提取时,发现:随着时间推移,每张图片处理耗时增多,占用内存不断变大。tensorflow有类似的issue。 问题代码 123456789101112131415161718192021222324252627282930...with tf.Graph().as_default(): with slim.arg_scope(in ...
阅读全文 »
12
Heloowird

Heloowird

15 日志
3 分类
10 标签
GitHub
© 2015 - 2021 Heloowird