极速5分快3骗局从基础到 RNN 和 LSTM,NLP 取得的进展都有哪些?
- 时间:
- 浏览:3
极速5分快3骗局机器学习领域4个 多最令人着迷的任务,你你這個 训练机器理解人类交流能力的进步。在机器学习领域,你你這個分支被称为自然语言处理(Natural Language Processing)。
在没没办法 人深入研究之前 ,有必要了解你你這個基础知识。
语言是哪些?
计算机如可理解语言?
计算机要处理任何概念,都需用以本身数学模型的形式表达哪些概念。
哪些是自然语言处理?
自然语言处理,或简称为NLP,被广泛地定义为通过软件对自然语言(如语音和文本)的自动操作。
基本的转换
分词,词干提取,词形还原
你你這個词干提取是基于一组规则地处的,你你這個词干返回的词根你你這個何必 总爱英语单词。 你这其他人面,词形还原还要能极速5分快3骗局适当地减少变形词,确保词根属于英语。
N-grams(N元模型)
将一门自然语言分解成n-gram是保持语句中再次出现的单词数量的关键,而语句是自然语言处理中使用的传统数学过程的主干。
转换依据
TF-IDF
TF-IDF是本身对词汇进行评分的依据,按照它对语句含义的影响的比例为单词提供足够的权重。得分是4个 多独立评分,词频(tf)和逆文件频率(idf)的乘积。
词频(TF):词频表示词语再次出现在一篇文章中的频率。
独热编码
独热编码是另本身以数字形式表示词语的依据。词语向量的长度等于词汇表的长度,每4个 多语句用4个 多矩阵来表示,行数等于词汇表的长度,列数等于语句中词语的数量。词汇表中的词语再次出现在语句中时,词语向量对应位置的值为1,你你這個为0。
图片来源 - 谷歌
词嵌入
为了便于理解,没没办法 人还要能将嵌入看作是将每个单词投射到4个 多行态空间,如下图所示。
每个词被映射到4个 多行态空间里(性别,王室成员,年龄,食物等)
然而,事实上哪些维度何必 没办法 清楚或便于理解。但你你這個算法是在维度的数学关系上训练的,你你這個这不要产生大大问题。从训练和预测的宽度来看,维度所代表的内容对于神经网络来说是没办法 意义的。
表示依据
词袋
词袋是本身以表格表示数据的依据,其中列表示语料库的总词汇表,每一行表示4个 多观察。单元格(行和列的交集)表示该特定观察中的列所代表的单词数。 它有有利于机器用易于理解的矩阵范式理解语句,从而使各种线性代数运算和你你這個算法要能应用到数据上,构建预测模型。
下面是医学期刊文章样本的词袋模型示例
你你這個表示非常有效,你你這個负责为你你這個最常用的机器学习任务(如垃圾邮件检测,夫妻夫妻感情分类器等)生成模型。
它忽视了文本的顺序/语法,从而背叛了单词的上下文。 你你這個表示依据生成的矩阵非常稀疏,你你這個更偏向于最常见的单词。试想,算法主要依赖于单词的数量,而在语言中,单词的重要性实际上与再次出现频率成反比。频率较高的词是更通用的词,如the,is,an,它们不要显着改变语句的含义。你你這個,重要的是适当地衡量哪些词,以反映它们对语句含义的影响。
嵌入矩阵
为了将样本转换为其嵌入形式,将独热编码形式中的每个单词乘以嵌入矩阵,从而得到样本的词嵌入形式。
循环神经网络(RNN)
循环神经网络的的标准输入是4个 多词而就有4个 多详细的样本,这是概念上与标准神经网络的不同之处。这给神经网络提供了要能处理不同长度语句的灵活性,而这是标准神经网络无法做到的(你你這個它固定的行态)。它也提供了4个 多额外的在不同文本位置共享行态学习的优势,而这也是标准神经网络无法做到的。
循环神经网络把4个 多语句的不同单词在t时刻输入你你這個利用t-1时刻的激活值,下面的图详细展示了循环神经网络行态:
上述行态也被叫做多对多架构,也你你這個 输入的数量等于输出的数量。你你這個行态在序列模型中是非常有用的。
除了上边提到的架构外,还有本身常用的RNN架构。
2.一对多的RNN:一对多架构指的是RNN基于单个输入值生成一系列输出值的情況。使用你你這個架构的4个 多主要示例是音乐生成任务,其中输入是jounre或第4个 多音符。
3.多对多(Tx不等于Ty)架构:该架构指的是读取你你這個输入以产生你你這個输出的地方,其中,输入的长度不等于输出的长度。使用你你這個架构的4个 多主要例子是机器翻译任务。
RNN的局限性
上述RNN架构的示例仅能捕获语言的4个 多方向上的依赖关系。基本上,在自然语言处理的情況下,它假定上边的单词对之前 单词的含义没办法 影响。根据没没办法 人的语言经验,没没办法 人知道这肯定是不对的。 RNN你你這個 能很好地捕捉长期的依赖关系,梯度消失的大大问题在RNN中再次出现。
门控循环单元(GRU)
它是对基本循环单元的本身修改,有有利于捕获长期的依赖关系,就有有利于处理消失梯度大大问题。
GRU增加了4个 多额外的存储单元,通常称为更新门或重置门。除了通常的具有sigmoid函数和softmax输出的神经单元外,它还含有4个 多额外的单元,tanh作为激活函数。使用tanh是你你這個它的输出还要能是正的也还要能是负的,你你這個还要能用于向上和向下伸缩。你你這個,该单元的输出与激活输入相结合,以更新内存单元的值。
你你這個,在每个步骤中,隐藏单元和存储单元的值一定会被更新。存储单元中的值在决定传递给下4个 多单元的激活值时起作用。
LSTM
在LSTM架构中,4个 多多更新门和4个 多忘记门,而就有像在GRU中那样只4个 多多更新门。
你你這個架构为存储单元提供了4个 多选项,还要能保留t-1时刻的旧值,并将t时刻向其加上值。
关于LSTM的更详细的解释,请访问:http://colah.github.io/posts/2015-08-explanation – lstms/
双向RNN
在上述RNN架构中,仅考虑之前 时间戳再次出现的影响。在NLP中,这原因它只考虑了当前单词再次出现之前 的单词的影响。但在语言行态中,情況何必 没办法 ,你你這個靠双向RNN来拯救。
双向RNN由前向和后向循环神经网络组成,并结合4个 多网络在任意给定时间t的结果进行最终预测,如图所示。
在这篇文章中,我试图含有自然语言处理领域中所有流行的相关实践和神经网络架构。对于哪些对深入了解神经网络感兴趣的人,我强烈建议没没办法 人去 Coursera 上 Andrew Ng 的课程。
要我查看相关文献和参考内容?
点击【从基础到 RNN 和 LSTM,NLP 取得的进展都哪些?】即可访问~
via https://towardsdatascience.com/natural-language-processing-from-basics-to-using-rnn-and-lstm-ef6779e4ae66
你你你這個错过了哪些企业的秋招信息,新增B站、美团、携程、网易等(持续更新中...)
自今天现在刚开始,AI研习社会定期搜集并推送各大名企校招岗位和内推信息,同時 也会邀请求职成功者和企业人力专家分享求职经验。另外,没没办法 人会在社区职荐版块更新 AI 企业校招和社招信息,欢迎有志于在 AI 行业发展的应届毕业生们来 AI 研习社投递简历噢~
点击链接可访问查看到去一段时间企业校招信息:https://ai.yanxishe.com/page/blogDetail/14121
雷锋网(公众号:雷锋网)雷锋网雷锋网
雷锋网原创文章,未经授权禁止转载。详情见转载须知。