极速5分快3骗局从基础到 RNN 和 LSTM,NLP 取得的进展都有哪些?

  • 时间:
  • 浏览:3

极速5分快3骗局机器学习领域4个 多最令人着迷的任务,你你這個 训练机器理解人类交流能力的进步。在机器学习领域,你你這個分支被称为自然语言处理(Natural Language Processing)。

本极速5分快3骗局文尝试解释自然语言处理的基础知识,以及随着宽度学习和神经网络的发展,自然语言处理所取得的快速进展。

在没没办法 人深入研究之前 ,有必要了解你你這個基础知识。

语言是哪些?

本身语言,基本上是4个 多由人类社会共享的固定的词汇表,用来表达和交流没没办法 人的思想。
你你這個词汇表作为没没办法 人成长过程的一次责被世代相传,你你這個大次责保持不变,每年会增加很少的次责作为补充。
诸如词典這個的精细资源得到了维护,以便4个 多人遇到4个 多新词时,他或她还要能通过参考词典来了解其含义。一旦没没办法 人接触到你你這個词,它就会被加上到他或她你这其他人的词汇表中,还要能用于进一步的交流。

计算机如可理解语言?

计算机是在数学规则下工作的机器。它没办法 解释你你這個理解哪些人类还要能轻松做到的事,但却能在几秒内执行完复杂的计算。
计算机要处理任何概念,都需用以本身数学模型的形式表达哪些概念。  
你你這個约束极大地限制了计算机还要能使用的自然语言的范围和领域。目前,机器在执行分类和翻译的任务方面非常成功。
分类基本上是将一段文本分类为4个 多类别,而翻译则是将这段文本转加上任何你你這個语言。

哪些是自然语言处理?

自然语言处理,或简称为NLP,被广泛地定义为通过软件对自然语言(如语音和文本)的自动操作。
自然语言处理的研究你你這個有100多年的历史了,你你這個随着计算机的兴起而从语言学领域发展起来。

基本的转换

正如前文所述,让一台机器理解自然语言(人类使用的语言),需用将语言转加上本身还要能建模的数学框架。下面提到的是帮助没没办法 人实现你你這個目标的你你這個最常用的技术。

分词,词干提取,词形还原

分词是将文本分解成单词的过程。分词还要能在任何字符上地处,但最常见的分词依据是在空格上进行分词。
词干提取是本身截断词尾以获得基本单词的粗糙依据,通常包括加上派生词缀。派生词是指4个 多词由没办法 词形成(派生)的词。派生词通常与原始词属于不同的词类。最常见算法是Porter算法。
词形还原对词进行词汇和行态分析,通常你你這個 为了消除词尾变化。词尾变化是一组字母加上单词的末尾以改变其含义。你你這個词尾变化是单词复数加s,如bat,bats。
你你這個词干提取是基于一组规则地处的,你你這個词干返回的词根你你這個何必 总爱英语单词。你这其他人面,词形还原还要能极速5分快3骗局适当地减少变形词,确保词根属于英语。

N-grams(N元模型)

N-gram是指将相邻的单词组合在同時 来表示目的的过程,其中N表示要组合在同時 的单词数量。
這個,考虑4个 多语句,“自然语言处理对计算机科学至关重要。”
1-gram或unigram模型将语句标记为4个 多单词组合,你你這個输出将是“自然、语言、处理、对、计算机、科学、至关重要”。
bigram模型将其标记为4个 多单词的组合,输出将是“自然语言、语言处理、处理对、对计算机、计算机科学、科学至关重要”
這個地,trigram模型将其分解为“自然语言处理、语言处理对、处理对计算机、对计算机科学、计算机科学至关重要”,而n-gram模型将4个 多语句标记为n个单词的组合。
将一门自然语言分解成n-gram是保持语句中再次出现的单词数量的关键,而语句是自然语言处理中使用的传统数学过程的主干。

转换依据

在词袋模型表示中实现你你這個点的最常见依据是t极速5分快3骗局F-idf。

TF-IDF

TF-IDF是本身对词汇进行评分的依据,按照它对语句含义的影响的比例为单词提供足够的权重。得分是4个 多独立评分,词频(tf)和逆文件频率(idf)的乘积。

词频(TF):词频表示词语再次出现在一篇文章中的频率。

逆文件频率(IDF):衡量词语提供的信息量,即它在所有文档中是常见的还是罕见的。它由log (N/d)计算得出。N是文档总数,d是含有某个词语的文档数。

独热编码

独热编码是另本身以数字形式表示词语的依据。词语向量的长度等于词汇表的长度,每4个 多语句用4个 多矩阵来表示,行数等于词汇表的长度,列数等于语句中词语的数量。词汇表中的词语再次出现在语句中时,词语向量对应位置的值为1,你你這個为0。

图片来源 - 谷歌

词嵌入

词嵌入是一组语言模型和行态学习技术共有的统称,词汇表中的词语或短语被映射到由实数构成的向量里。你你這個技术主要用于神经网络中。  

从概念上讲,它含有将4个 多词语从4个 多与词汇表长度相等的维度投射到较低的维度空间,其思想是這個的词语将被投射得更近。

为了便于理解,没没办法 人还要能将嵌入看作是将每个单词投射到4个 多行态空间,如下图所示。

每个词被映射到4个 多行态空间里(性别,王室成员,年龄,食物等)

然而,事实上哪些维度何必 没办法 清楚或便于理解。但你你這個算法是在维度的数学关系上训练的,你你這個这不要产生大大问题。从训练和预测的宽度来看,维度所代表的内容对于神经网络来说是没办法 意义的。
你你這個他有兴趣对线性代数4个 多多直观的理解,投影和变换是你你這個机器学习算法眼前 的核心数学原理,我将强烈鼓励没没办法 人访问3Blue1Brown的“线性代数的本质”。(b站搬运了相关视频,详情请看《线性代数的本质》,译者注)

表示依据

词袋

要使算法获取文本数据之间的关系,需用用清晰的行态化表示。
词袋是本身以表格表示数据的依据,其中列表示语料库的总词汇表,每一行表示4个 多观察。单元格(行和列的交集)表示该特定观察中的列所代表的单词数。
它有有利于机器用易于理解的矩阵范式理解语句,从而使各种线性代数运算和你你這個算法要能应用到数据上,构建预测模型。

下面是医学期刊文章样本的词袋模型示例

你你這個表示非常有效,你你這個负责为你你這個最常用的机器学习任务(如垃圾邮件检测,夫妻夫妻感情分类器等)生成模型。

你你這個,你你這個表示依据有4个 多主要的缺点:
  1. 它忽视了文本的顺序/语法,从而背叛了单词的上下文。
  2. 你你這個表示依据生成的矩阵非常稀疏,你你這個更偏向于最常见的单词。试想,算法主要依赖于单词的数量,而在语言中,单词的重要性实际上与再次出现频率成反比。频率较高的词是更通用的词,如the,is,an,它们不要显着改变语句的含义。你你這個,重要的是适当地衡量哪些词,以反映它们对语句含义的影响。

嵌入矩阵

嵌入矩阵是表示词汇表中每个单词嵌入的本身依据。行表示单词嵌入空间的维数,列表示词汇表中再次出现的单词。
为了将样本转换为其嵌入形式,将独热编码形式中的每个单词乘以嵌入矩阵,从而得到样本的词嵌入形式。

需用记住的一件事是,独热编码仅地处词汇表中单词位置处具有值是1的n维向量,n是词汇表的长度。哪些独热编码来自词汇表,而就有观测的结果。

循环神经网络(RNN)

循环神经网络就像它的名字一样,是神经网络非常重要的本身变体,被极少量运用于自然语言处理。
循环神经网络的的标准输入是4个 多词而就有4个 多详细的样本,这是概念上与标准神经网络的不同之处。这给神经网络提供了要能处理不同长度语句的灵活性,而这是标准神经网络无法做到的(你你這個它固定的行态)。它也提供了4个 多额外的在不同文本位置共享行态学习的优势,而这也是标准神经网络无法做到的。

循环神经网络把4个 多语句的不同单词在t时刻输入你你這個利用t-1时刻的激活值,下面的图详细展示了循环神经网络行态:

上述行态也被叫做多对多架构,也你你這個 输入的数量等于输出的数量。你你這個行态在序列模型中是非常有用的。

除了上边提到的架构外,还有本身常用的RNN架构。

1.多对一的RNN:多对一的架构指的是使用多个输入(Tx)来产生4个 多输出(Ty)的RNN架构。适用你你這個架构的例子是分类任务。


上图中,H表示激活函数的输出。

2.一对多的RNN:一对多架构指的是RNN基于单个输入值生成一系列输出值的情況。使用你你這個架构的4个 多主要示例是音乐生成任务,其中输入是jounre或第4个 多音符。

3.多对多(Tx不等于Ty)架构:该架构指的是读取你你這個输入以产生你你這個输出的地方,其中,输入的长度不等于输出的长度。使用你你這個架构的4个 多主要例子是机器翻译任务。

Encoder(编码器)指的是读取要翻译的语句的网络一次责,Decoder(解码器)是将语句翻译成所需语言的网络的一次责。

RNN的局限性

RNN是有效的,但就有一定的局限性,主要在于:
  1. 上述RNN架构的示例仅能捕获语言的4个 多方向上的依赖关系。基本上,在自然语言处理的情況下,它假定上边的单词对之前 单词的含义没办法 影响。根据没没办法 人的语言经验,没没办法 人知道这肯定是不对的。
  2. RNN你你這個 能很好地捕捉长期的依赖关系,梯度消失的大大问题在RNN中再次出现。
这本身局限性原因了新型的RNN架构的产生,下面将对此进行讨论。

门控循环单元(GRU)

它是对基本循环单元的本身修改,有有利于捕获长期的依赖关系,就有有利于处理消失梯度大大问题。

GRU增加了4个 多额外的存储单元,通常称为更新门或重置门。除了通常的具有sigmoid函数和softmax输出的神经单元外,它还含有4个 多额外的单元,tanh作为激活函数。使用tanh是你你這個它的输出还要能是正的也还要能是负的,你你這個还要能用于向上和向下伸缩。你你這個,该单元的输出与激活输入相结合,以更新内存单元的值。

你你這個,在每个步骤中,隐藏单元和存储单元的值一定会被更新。存储单元中的值在决定传递给下4个 多单元的激活值时起作用。

详细的解释请参考:https://towardsdatascience.com/understanding-gru-networks-2ef37df6c9be

LSTM

在LSTM架构中,4个 多多更新门和4个 多忘记门,而就有像在GRU中那样只4个 多多更新门。

你你這個架构为存储单元提供了4个 多选项,还要能保留t-1时刻的旧值,并将t时刻向其加上值。

关于LSTM的更详细的解释,请访问:http://colah.github.io/posts/2015-08-explanation – lstms/

双向RNN

在上述RNN架构中,仅考虑之前 时间戳再次出现的影响。在NLP中,这原因它只考虑了当前单词再次出现之前 的单词的影响。但在语言行态中,情況何必 没办法 ,你你這個靠双向RNN来拯救。

双向RNN由前向和后向循环神经网络组成,并结合4个 多网络在任意给定时间t的结果进行最终预测,如图所示。

在这篇文章中,我试图含有自然语言处理领域中所有流行的相关实践和神经网络架构。对于哪些对深入了解神经网络感兴趣的人,我强烈建议没没办法 人去 Coursera 上 Andrew Ng 的课程。

要我查看相关文献和参考内容?

点击【从基础到 RNN 和 LSTM,NLP 取得的进展都哪些?】即可访问~

via https://towardsdatascience.com/natural-language-processing-from-basics-to-using-rnn-and-lstm-ef6779e4ae66

你你你這個错过了哪些企业的秋招信息,新增B站、美团、携程、网易等(持续更新中...)

自今天现在刚开始,AI研习社会定期搜集并推送各大名企校招岗位和内推信息,同時 也会邀请求职成功者和企业人力专家分享求职经验。另外,没没办法 人会在社区职荐版块更新 AI 企业校招和社招信息,欢迎有志于在 AI 行业发展的应届毕业生们来 AI 研习社投递简历噢~

点击链接可访问查看到去一段时间企业校招信息:https://ai.yanxishe.com/page/blogDetail/14121

雷锋网(公众号:雷锋网)雷锋网雷锋网

雷锋网原创文章,未经授权禁止转载。详情见转载须知。