nlp分类问题(nlp 分类)
大家好!今天让创意岭的小编来大家介绍下关于nlp分类问题的问题,以下是小编对此问题的归纳整理,让我们一起来看看吧。
开始之前先推荐一个非常厉害的Ai人工智能工具,一键生成原创文章、方案、文案、工作计划、工作报告、论文、代码、作文、做题和对话答疑等等
只需要输入关键词,就能返回你想要的内容,越精准,写出的就越详细,有微信小程序端、在线网页版、PC客户端
创意岭作为行业内优秀的企业,服务客户遍布全球各地,如需了解SEO相关业务请拨打电话175-8598-2043,或添加微信:1454722008
本文目录:
一、了解下NLP理解层次,于你的帮助
以前听过这么名词,并且也不断有接触的老师或者朋友有学习或者应用这个内容,于我来说带点神秘。
我的理解如下:
1、用NLP理解层次,可以去思考一个人的做事根源或者分析事情发展,从而更好的理解和应用在一个人的长期发展及具体事情的问题解决。
2、NLP理解层次分成6个层次,其中下面三个属于低层次,上面三个属于高层次。
由上到下依次是
1)精神:就是我与外部的关系,链接等
2)身份:就是我所在的位置,我是谁
3)信念/价值观:我的理念 我达到什么
4)能力:我具有的技能,实力
5)行为:我所做出来的言行举止,交流状态等
6)环境:我所在的地点,周围人及事物 发生的
3、有困难的事情,从所在层级往上一层级,能更好找到解决方式,但是从平级或者往下找,则相对困难,有个词,叫降维打击也是这个理解吧
举例:
如果你想赞扬一个人,从上三层表达,会收到意想不到的效果。
讲一个反面的案例吧,这是我一个女性朋友反馈我的真实案例,她去帮一个朋友的忙,出席了一个每年一次重要会议,于她来说,这是她第一次参与这个会议。因为她本人是内外兼修的,也就是那种明明可以靠颜值,但是偏偏用才华。会议很顺利,结束后,现场会议几个工作人员,都上来寒暄,并多次称赞她太漂亮之类的话,她心里就不太舒服,要知道这个会议的发言内容也是她精心准备好几个个晚上的。后来她才知道,每年这个会议,邀请几位嘉宾中,必须要有一位长相极好的女嘉宾发言。
她后来吐槽,她已经30多岁了,不是那种20多岁的只凭说漂亮就心花怒放的阶段了,但凡如果对方说她有气质,她还是可以接受的。
如果用N LP 理解层次分析她的这个事情:
1)精神:影响和链接更多人,能转化为实际应用
2)身份:会议的发言嘉宾,是一个行业知识传播者
3)信念/价值观:更好的完成自己负责会议要求,让参加会议的人通过她的发言,有所引导和启发
4)能力:组织发言稿及自身形象礼仪素养
5)行为:老师的发言及举止呈现
6)环境:会议现场 与会的人员等等
——其实,与会的工作人员称赞她的上三层,我相信,她感受会很好,至少明年肯定会愿意再参加这个会议。但从和她沟通中,我感受到了她的无奈。
于我的工作生活有什么指导意义。
1、做事情,对事不对人
遇人不淑的时候,认清自己所要的目标是什么,不被他人影响(至少不要太被波及情绪)
2、理解和包容自己的不完美
一些学习转化慢,不是能力不成,而是身份定位不相符,一天24小时时间有限不能浪费,接受不完美。
3、会外部环境看得淡然
不是所有的事情,都是往自己的方向发展,因为大环境变化产生的反应难以预料。
PS:百度了几个图片和网络解释,以下内容均选自网络
每一件与我们人生有关系的事,我们都会赋予其一些意义。人生里事情这么多,我们不断地处理它们,往往因为忙碌而变得被动和迷惘,不知道什么应该做,什么才是重要的;也分不清哪些事情是短暂不足道的,哪些是对人生有深远影响的。
其实,事情的意义是可以被分类而因此理出其中的相互比较标准的。如果我们能够把大部分时间和精力放在有深远意义的事情上,累积出来的效果,自然把人生推至更理想的高线上。
理解层次早期被称为Neuro-Logical Levels,最初由格雷戈里·贝特森发展出来,后由罗伯特·迪尔茨(Robert Dilts)整理,在1991年推出。理解层次(见图6一1)是一套模式(Pattern),因为它可以用来解释社会上出现的很多事情。理解层次在辅导工作中让我们明白受导者的困扰所在,因而更容易帮助他找出解决问题的方法,是很实用的一套概念。而NLP中也有一套技巧被称为“理解层次贯通法”,帮助用者明白从困惑中突破的关系,并且与自己潜意识的深层力量联系,使得人生策划方面更有效果,所以也是技巧。
我们的大脑在处理任何事情的时候,都分为六个层次,它们分别是:
1.精神
我与世界上其他人、事物的关系。当一个人谈及他的人生的意义或者一家公司谈及它对社会的贡献时,便涉及到“精神”的层次了。
2.身份
一个人或者一家公司怎样看自己(我是谁?)。给自己定位,或者描述出自己的定位,便涉及到身份的意义了。承接上面(精神)的意思,便是“自己准备以怎样的身份去实现人生的意义”。
3.信念、价值
为了配合上述的身份,我需要有一套怎样的信念和价值?每一个人活在这个世界上,必然地已经有了一个不自觉的身份,亦已经有了一套相关的信念与价值。它们决定我们做每一件事的态度,但并不常会有意识地涌现。(一般来说只有在反省整个人生或者学习NLP的时候,一个人才会想到身份和信念/价值的问题)在每天的生活里持着一套信念和价值去处理每一件事。多数出现的信念、价值层次问题是:
— 为什么做(或不做)
— 有些什么(重要)意义?
— 应该是怎样的?
— 对我有什么好处?
4.能力
这个层次涉及到一个人怎样认识自己能有的选择(有没有选择,或者是“我必须这样做?”)。每一个选择都是一份能力,故此选择越多,能力越大。我们一般说的能力,表面上指的是技能:懂英文、会用电脑、用某种技巧做某事。但是细心想想,它们其实也都是更多的选择。情绪代表能力,也列入这个层次。
5.行为
这个层次所指的是“做什么?”、“有没有做?”,即能力的挑选和实际发挥,也就是在环境中我的实际运作。
6.环境
“环境”包括了所有身体以外,即外界的条件,世界上的种种人、事、物、时、地、金钱和设备等都属“环境”。
图片:本人拍摄于北京
二、NLP基本术语与基本概念-上
词是最小的能够独立活动的有意义的语言成分,英文单词之间是以空格作为自然分界符的,而汉语是以字为基本的书写单位,词语之间没有明显的区分标记,因此,中文词语分析是中文分词的基础与关键。中文和英文都存在分词的需求,不过相较而言,英文单词本来就有空格进行分割,所以处理起来相对方便。但是,由于中文是没有分隔符的,所以分词的问题就比较重要。分词常用的手段是基于字典的最长串匹配,据说可以解决85%的问题,但是歧义分词很难。举个例子,“美国会通过对台售武法案”,我们既可以切分为“美国/会/通过对台售武法案”,又可以切分成“美/国会/通过对台售武法案”。
中文分词技术可分为三大类:
基于机器学习的方法里,往往需要对词的词性进行标注。词性一般是指动词、 名词、形容词等。标注的目的是表征词的一-种隐藏状态,隐藏状态构成的转移就构成了状态转移序列。例如:我/r爱/v北京/ns天安门/ns。其中,ns代表名词,v代表动词,ns、v都是标注,以此类推。
词性作为对词的一种泛化,在语言识别、句法分析、信息抽取等任务中有重要作用。
http://blog.csdn.net/truong/article/details/18847549
命名实体是指从文本中识别具有特定类别的实体(通常是名词),例如人名、地名、机构名、专有名词等。主要包含两部分:
命名实体识别是信息提取、问答系统、句法分析、机器翻译、面向SemanticWeb的元数据标注等应用领域的重要基础工具。
https://blog.csdn.net/u012879957/article/details/81777838
句法分析往往是一种基于规则的专家系统。当然也不是说它不能用统计学的方法进行构建,不过最初的时候,还是利用语言学专家的知识来构建的。句法分析的目的是解析句子中各个成分的依赖关系。所以,往往最终生成的结果是一棵 句法分析树。句法分析可以解决传统词袋模型不考虑上下文的问题。比如,“小李是小杨的班长”和“小杨是小李的班长”,这两句话,用词袋模型是完全相同的,但是句法分析可以分析出其中的主从关系,真正理清句子的关系。
中文中代词出现的频率很高,它的作用的是用来表征前文出现过的人名、地名等。例如,清华大学坐落于北京,这家大学是目前中国最好的大学之-。 在这句话中, 其实“清华大学”这个词出现了两次,“这家大学指代的就是清华大学。但是出于中文的习惯,我们不会把“清华大学”再重复一遍。
一般情况下,指代分为2种:回指和共指。
回指是指当前的照应语与上文出现的词、短语或句子(句群)存在密切的语义关联性,指代依存于上下文语义中,在不同的语言环境中可能指代不同的实体,具有非对称性和非传递性;
共指主要是指2个名词(包括代名词、名词短语)指向真实世界中的同一参照体,这种指代脱离上下文仍然成立。
目前指代消解研究主要侧重于等价关系,只考虑2个词或短语是否指示现实世界中同一实体的问题,即共指消解。
中文的指代主要有3种典型的形式:
所谓情感识别,本质上是分类问题,经常被应用在舆情分析等领域。情感一般可以分为两类,即正面、负面,也可以是三类,在前面的基础上,再加上中性类别。一般来说,在电商企业,情感识别可以分析商品评价的好坏,以此作为下一个环节的评判依据。通常可以基于词袋模型+分类器,或者现在流行的词向量模型+RNN。经过测试发现,后者比前者准确率略有提升。
自动纠错在搜索技术以及输人法中利用得很多。由于用户的输人出错的可能性比较大,出错的场景也比较多。所以,我们需要一个纠错系统。具体做法有很多,可以基于N-Gram进行纠错,也可以通过字典树、有限状态机等方法进行纠错。
这是一种类似机器人的人工智能系统。比较著名的有:苹果Siri、IBM Watson、微软小冰等。问答系统往往需要语音识别、合成,自然语言理解、知识图谱等多项技术的
问答系统(Question Answering System, QA)是信息检索系统的一种高级形式,它能用准确、简洁的自然语言回答用户用自然语言提出的问题。
基于自由文本的问答系统,基本上分为三个模块:
问句分析->文档检索->答案抽取(验证)
https://blog.csdn.net/class_guy/article/details/81535287
针对目标句子,进行各种句法分析,如分词、词性标记、命名实 体识别及链接、句法分析、语义角色识别和多义词消歧等。
抽取目标文本中的主要信息,比如从一-条新闻中抽取关键信息。主要是了解是谁、于何时、为何、对谁、做了何事、产生了有什么结果。涉及实体识别、时间抽取、因果关系抽取等多项关键技术。
主要包含了对文本的聚类、分类、信息抽取、摘要、情感分析以及对挖掘的信息和知识的可视化、交互式的呈现界面。
将输人的源语言文本通过自动翻译转化为另种语言的文本。根据输人数据类型的不同,可细分为文本翻译、语音翻译、手语翻译、图形翻译等。机器翻译从最早的基于规则到二十年前的基于统计的方法,再到今天的基于深度学习(编解码)的方法,逐渐形成了一套比较严谨的方法体系。
对大规模的文档进行索引。可简单对文档中的词汇,赋以不同的权重来建立索引,也可使用算法模型来建立更加深层的索引。查询时,首先对输人比进行分析,然后在索引里面查找匹配的候选文档,再根据一个排序机制把候选文档排序,最后输出排序得分最高的文档。
针对某个自然语言表达的问题,由问答系统给出一个精准的答案。需要对自然语言查询语句进行语义分析,包括实体链接、关系识别,形成逻辑表达式,然后到知识库中查我可能的候选答案并通过-个排序机制找出最佳的答案。
系统通过多回合对话,跟用户进行聊天、回答、完成某项任务。主要涉及用户意图理解、通用聊天引擎、问答引擎、对话管理等技术。此外,为了体现上下文相关,要具备多轮对话能力。同时,为了体现个性化,对话系统还需要基于用户画像做个性化回复
参考: https://mp.weixin.qq.com/s/QjpOzO8Mt17mtnC7efT8nQ
三、NLP的任务
本文整理自网络,主要是对自然语言处理能发展和落地的方向进行总结,也算是对自然语言处理常见任务的总结。
NLP的四大任务如下:
序列标注(Sequence labeling)是我们在解决NLP问题时经常遇到的基本问题之一。在序列标注中,我们想对一个序列的每一个元素标注一个标签。一般来说,一个序列指的是一个句子,而一个元素指的是句子中的一个词。比如信息提取问题可以认为是一个序列标注问题,如提取出会议时间、地点等。
序列标注一般可以分为两类:
命名实体识别(Named entity recognition, NER)是信息提取问题的一个子任务,需要将元素进行定位和分类,如人名、组织名、地点、时间、质量等。
举个NER和联合标注的例子。一个句子为:Yesterday , George Bush gave a speech. 其中包括一个命名实体:George Bush。我们希望将标签“人名”标注到整个短语“George Bush”中,而不是将两个词分别标注。这就是联合标注。
1.1 BIO标注
解决联合标注问题最简单的方法,就是将其转化为原始标注问题。标准做法就是使用BIO标注。
BIO标注:将每个元素标注为“B-X”、“I-X”或者“O”。其中,“B-X”表示此元素所在的片段属于X类型并且此元素在此片段的开头,“I-X”表示此元素所在的片段属于X类型并且此元素在此片段的中间位置,“O”表示不属于任何类型。
比如,我们将 X 表示为名词短语(Noun Phrase, NP),则BIO的三个标记为:
因此可以将一段话划分为如下结果:
我们可以进一步将BIO应用到NER中,来定义所有的命名实体(人名、组织名、地点、时间等),那么我们会有许多 B 和 I 的类别,如 B-PERS、I-PERS、B-ORG、I-ORG等。然后可以得到以下结果:
[图片上传失败...(image-b1cfb3-1609330627120)]
1.2 序列标注常用模型
选择双向LSTM的原因是:当前词的tag和前后文都有关。
1.3 序列标注具体任务
(1)分词
(2)词性标注(Part-of-Speech tagging ,POS tagging)
(3)命名实体标注(name entity recognition, NER)
2.1 分类的具体任务
(1)文本分类、情感分类
3.1 具体任务
(1)句法分析、蕴含关系判断(entailment)
这类任务一般直接面向普通用户,提供自然语言处理产品服务的系统级任务,会用到多个层面的自然语言处理技术。
4.1 具体任务
(1)机器翻译(Machine Translation,MT)
Encoder-Decoder的最经典应用,事实上这一结构就是在机器翻译领域最先提出的。
(2)文本摘要、总结(Text summarization/Simplication)
输入是一段文本序列,输出是这段文本序列的摘要序列。
(3)阅读理解(Reading Comprehension)
将输入的文章和问题分别编码,再对其进行解码得到问题的答案。
(4)语音识别
输入是语音信号序列,输出是文字序列。
(5)对话系统(Dialogue Systerm)
输入的是一句话,输出是对这句话的回答。
(6)问答系统(Question-Answering Systerm)
针对用户提出的问题,系统给出相应的答案。
(7)自动文章分级(Automatic Essay Grading)
给定一篇文章,对文章的质量进行打分或分级。
1. 词法分析(Lexical Analysis):对自然语言进行词汇层面的分析,是NLP基础性工作
2. 句子分析(Sentence Analysis):对自然语言进行句子层面的分析,包括句法分析和其他句子级别的分析任务
3. 语义分析(Semantic Analysis):对给定文本进行分析和理解,形成能勾够表达语义的形式化表示或分布式表示
4. 信息抽取(Information Extraction):从无结构文本中抽取结构化的信息
5. 顶层任务(High-level Tasks):直接面向普通用户,提供自然语言处理产品服务的系统级任务,会用到多个层面的自然语言处理技术
【1】序列标注中的BIO标注介绍,地址: https://blog.csdn.net/HappyRocking/article/details/79716212
【2】 http://nlpers.blogspot.com.au/2006/11/getting-started-in-sequence-labeling.html
【3】NLP 四大任务,地址: https://www.dazhuanlan.com/2019/08/21/5d5ca1e2826b9/
【4】NLP基本任务,地址: https://blog.csdn.net/lz_peter/article/details/81588430
【5】微信研究员解析深度学习在NLP中的发展和应用,地址: https://edu.csdn.net/course/play/8673
【6】从Word Embedding到Bert模型—自然语言处理中的预训练技术发展史 - 张俊林的文章 - 知乎 https://zhuanlan.zhihu.com/p/49271699
四、【NLP】BERT常见问题汇总
bert结构大体上可分为 输入 、 N层transformer的encoder 和 输出 三部分组成。
输入 由 token embedding 、 segment embedding 和 position embedding 三部分相加组成;
N层transformer的encoder ,在bert_base中N=12,bert_large中N=24
输出 有 model.get_sequence_out() 和 model.get_pooling_out() 两种输出,其shape分别为[batch_size, seq_length, hidden_size]和[batch_size, hidden_size]。
model.get_sequence_out() 输出主要用于特征提取再处理的序列任务,而 model.get_pooling_out() 输出可直接接softmax进行分类(当然需要外加一层dense层将hidden_size转换为num_tag)。
bert适合于自然语言理解(Natural language Understanding, NLU)类任务,如文本分类、信息抽取等;
bert不适合于自然语言生成(Natural language Generation, NLG)类任务。
因为bert采用的是双向的语言模型,除了被mask的词语外,该词语前后的词语都可以看到。
而NLG任务的目标是在已知当前词与之前词语的情况下,预测出下一个词语,直至所有词语预测完成。
以上就是关于nlp分类问题相关问题的回答。希望能帮到你,如有更多相关问题,您也可以联系我们的客服进行咨询,客服也会为您讲解更多精彩的知识和内容。
推荐阅读:
PanDownload官网(pandownload官网安卓版)