正文

nlp库十大排名（nlp榜单）

发布时间：2023-05-05 08:40:00 稿源：创意岭阅读： 654

大家好！今天让创意岭的小编来大家介绍下关于nlp库十大排名的问题，以下是小编对此问题的归纳整理，让我们一起来看看吧。

创意岭作为行业内优秀的企业，服务客户遍布全球各地，相关业务请拨打电话：175-8598-2043，或添加微信：1454722008

本文目录:

1、如何判断nlp和知识图谱技术实现的智能客服是否具有强人工智能？
2、单凭NLP撑起客服机器人？恐怕你对NLP有什么误解 | 爱分析调研
3、NLP应用于司法系统（综述）
4、NLP基本术语与基本概念-上

nlp库十大排名（nlp榜单）

一、如何判断nlp和知识图谱技术实现的智能客服是否具有强人工智能？

判断 NLP 和知识图谱技术实现的智能客服是否具有强人工智能，可以考虑以下几个方面：

语言理解能力：智能客服是否能够准确理解客户的语言，识别客户的问题并回答相应的答案。
自然语言生成能力：智能客服是否能够生成自然语言文本，回答客户的问题。
知识库：智能客服是否具有丰富的知识库，能够回答客户的多种问题。
自我学习能力：智能客服是否能够根据客户的询问自我学习，不
断更新知识库并提高回答问题的准确性。
自然语言理解和自然语言生成的能力越高，知识库越丰富，自我学习能力越强，则智能客服就越具有强人工智能。

此外，可以考虑进行人工评估，通过与人工客服进行对比来评估智能客服的能力。如果智能客服能够和人工客服一样准确地理解客户的语言并回答问题，则可以认为具有强人工智能。

二、单凭NLP撑起客服机器人？恐怕你对NLP有什么误解 | 爱分析调研

调研 | 李喆洪军

撰写 | 洪军

随着NLP技术的兴起以及google的bert模型开源，不少新兴企业开始进入客服机器人领域，市面上逐渐出现了一大批质量参差不齐的客服机器人。其中大多数只能完成某个场景的验证，在深入做复杂场景时往往无所适从，真正具有竞争力的产品可谓是凤毛麟角。

众多企业以NLP作为噱头大肆宣传，但其中真正能经得起考验的产品却少之又少。

主要原因在于，单纯地利用NLP技术只适合于回答一些规范性的问题，例如实体属性、关系的问答，并不能够完全解决客服机器人的全部实际问题。

实际上，rule base、深度学习、NLP技术在客服机器人实际应用过程中拥有各自的优势。

rule base适用于一些常见问题的场景，通过关键词匹配、快速搜索，能够快速、准确的进行问答；深度学习适用于一些泛化类的意图问题，他能够基于上下文语义理解，更好的服务客户；而知识图谱适用于一些规整的问题，例如实体属性的问答。

因此，想要做好一款智能高效的客服机器人，只有以海量的数据为基础，在实践中运用不同技术对产品进行不断打磨，才能带来媲美人工的舒心服务。

云问科技基于rule base、深度学习、NLP等技术针对具体问答场景提供不同的技术，大幅提高了客服机器人的智能化水平。

云问科技是一家客服机器人供应商，并在客服机器人基础上提供质检、培训等增值服务，帮助企业在服务和管理上更加高效智能。

与同行业其他公司相比，云问科技最大的特点在于技术融合性与庞大知识库。云问科技综合rule-base、NLP、深度学习等技术搭建了客服机器人底层平台，并构建了一个拥有50多个细分行业的知识图谱与常见问题问答的知识库，将不同知识库内容搭载在底层平台上为金融、电商、政务等行业提供相应的客服机器人。

在服务的场景上，云问科技提供的客服机器人以接待、咨询等呼入场景为主，包括售前与售后环节，主要以文本形式进行交互问答，且可以进行业务咨询全覆盖，以及多群体访问。

除客服机器人之外，云问科技还提供企业内部人事、IT、财务等自动咨询和系统服务问答调用的智能服务平台以及实体机器人等增值服务。

目前，云问科技客服机器人以本地化部署方式收费，第一年运维免费提供，之后每年会收取20%的维护费用。企业内部智能服务系统以SaaS订阅方式收费，订阅费用根据API调用量决定。

客户方面，云问科技以金融、政府、IT行业的中大型客户为主，典型客户有国泰人寿、华夏保险、海南省人民政府、腾讯等。

云问科技在2013年成立之初，就采用rule

base技术上线了第一款文本客服机器人。

但单纯的使用rule base技术应用场景有限，只在一些频繁性的问题问答较为适用。于是，在2015年，云问科技引入深度学习技术，并上线了第一款在线客服系统，可以同时满足多人的在线自动问答，并增加了问答内容范围。

随着客户对客服机器人准确率的要求越来越高。2017年7月，融合了NLP技术的云问客服机器人上线，在一些规范性的实体属性、关系的问答情形精确度大幅提高。

现如今，云问科技在针对客户的需求时，已将三种技术融合的游刃有余。由于不同企业的FAQ库与知识图谱略有不同，如何在较短的时间内提供高效智能的产品变得尤为重要。而云问科技恰好精于此道。云问科技经过6年的专心打磨，已经熟知在哪些问答问题上应该使用哪种技术、哪种模型，技术转化为产品能力居行业领先水平。

在产品实际部署时，由于需要了解客户的需求，构建企业的知识图谱，因此，部署时间通常为3-6个月。而云问科技与中大型客户从开始接触到最终产品落地只需要1-3个月，其中产品实际落地时间往往在1个星期之内，工程化能力同样出众。

目前，云问科技经过长达6年的积累，已经构建了一个庞大的知识库。该知识库由50个细分领域FAQ（FrequentlyAsked

Questions）与知识图谱组成，行业包括政务、金融、物流、电商等。

知识库的建立，一方面为技术的优化提供数据基础。另一方面，将不同行业的知识库与底层客服机器人系统相结合，可以快速实现不同领域的产品落地，加快市场拓展进程。

此外，云问科技目前服务的典型客户包括国泰人寿、华夏保险、腾讯等，示范效应显著，良好的口碑也为云问增色不少。

以客服机器人为切入点，向企业内部智能服务场景延伸

未来，云问科技将以智能高效的客服机器人作为切入点，与企业建立友好合作，并不断深入挖掘企业其他智能服务需求，提高客户的LTV。

若只提供单纯的客服机器人，其客单价往往不高，单个的客服机器人价格在10-100万之间，具体根据企业的产品需求而定。客服机器人为一次性付费产品，之后每年会收取10%-20%的运维费用，但收入都相对较少。

因此，云问科技需要不断挖掘客户需求，提供更加丰富、智能化的产品。云问科技将会和一些大型企业，包括美的、海尔等进行深入探讨，挖掘他们的需求，方向上包括企业内部IT场景、员工培训、企业知识管理等。

考虑到后续在企业需求扩展时，多为定制化产品情形，云问科技把软件做了很好的分层，通过构建通用底层平台，从而能够快速为不同企业提供不同产品。

爱分析从技术、场景理解、客群、获客等四个维度对云问科技进行评价。

技术： 2013年开始做客服机器人，综合了FAQ、深度学习、NLP三种技术为客户提供最高效的客服系统，经验丰富，技术较强。在针对不同客户的FAQ与知识图谱时，知道采用何种技术和模型解决特定场景下的问题，使得提供的客服机器人精度更高。

场景理解： 公司所在客服机器人领域，产品需求旺盛，市场规模为千亿级。想要做好一款智能高效的产品较难，技术与数据将会是核心竞争点。公司经过6年的积累，形成了50个细分行业的知识库，不仅能为模型优化提供数据，还能加速产品落地，扩大市场占有率。

客群： 以中大型客户为主，行业覆盖金融、电商、政府等，典型客户包括国泰人寿、华夏保险、海尔、美的、腾讯等，示范效应显著。中大型客户比小型客户对客服系统的需求强烈，客户粘性强，付费能力强，可深入挖掘空间大。

获客： 以直销为主，销售人员为50人。公司成立6年，中大型客户300家，SaaS型订阅客户数量数百家，客户数量较少，获客能力有待加强。

近日，爱分析专访云问科技创始人兼CEO王清琛，就客服机器人发展趋势与云问科技业务发展进行了深入交流，现摘取部分内容如下。

爱分析：在场景选择上，为什么云问科技选择接待机器人而不是外呼机器人？

王清琛： 主要是因为不同公司的历史发展和技术侧重点不同，例如，如果一家公司以前是做语音的，就很容易从呼叫机器人切入，但我们之前是做文本识别的，就容易从文本切入。

外呼场景相对来说比较容易，因为他们都是有目的、有话术、相对封闭的场景。但是呼入场景很难做深。呼入机器人需要有强大的知识库做为支撑，当一个电话呼入进来，对话不可控，用实体、边的属性很难实现全部的对话功能。所以做呼入机器人不仅就需要NLP技术、以及强大的知识库，还需要其他能力，这样才能把整个问答过程支撑起来。

爱分析：在实际落地时，客户完全会用客服机器人服务，还是一些简单的场景让客服机器人去做？

王清琛： 这些情况都有。主要是市场对客服机器人的认知度在不断变化。现在的发展趋势由原先的以人工客服解决为主转化为以智能客服为主。

例如，以前，客户会在人工客服下班的时候使用机器人服务。后来，逐渐在人手不够情况下使用机器人。现在大多是先使用机器人进行服务，在无法进行回答时再使用人工。未来预计会慢慢的只在有客户投诉的时候再使用人工客服。

爱分析：云问科技是只做客服机器人本身，不做在线客服系统和呼叫中心吗？

王清琛： 对。我们一直都是只做智能这一块，包括语义分析、语义理解。

爱分析：云问科技一直不做偏人工客服系统的原因是什么？

王清琛： 云问从一开始觉得，智能是未来的方向，我们会投入更多的精力在这方面。而在人工客服系统方面，无论从运营、渠道角度，都有很多厂商在做，我们也就没有过多涉足。

爱分析：现在最终判断客服系统与场景结合程度好坏的指标有哪些？

王清琛： 指标有很多，大型客户在招标问答系统时都有一套评价体系，主要包括多轮对话的轮次、语义的识别、模糊匹配、知识的理解、语义的泛化。

爱分析：现在一套中大型的客户，部署周期需要多长时间？

王清琛： 大概需要1-3个月，主要时间花费在与客户沟通交流，了解客户的需求，构建他们的知识图谱。我们会基于我们的方法论构建一些通用的知识图普，然后会为企业构建一些深度的企业知识图普。

爱分析：云问科技认为rule base、深度学习、NLP技术厂商都可能会转向客服机器人领域吗?

王清琛： 任何一条路的可能性都有。在我们看来，不管是分词技术、还是用自然语言处理的技术做一些特定语的提取，都会解决某一个环节的产品，但不能解决整个问题。

客服机器人是一个技术的结合，不同的环节用不同技术效果会不一样。我们更多的用底层技术打起，从最底层分词的技术做起，提供整个的一套服务，我们服务对话机器人在问答效果上优势明显。我们认为主要原因是技术的融合，而不是某一项技术引领行业的发展。

例如，我们在做意图识别，遇到过一个超过200个选项的意图识别。当时尝试了很多算法，最后选择了深度学习算法，他的算法效果比其他算法准确度高十个百分点。

爱分析：在2017年之前，云问有用到知识图谱技术吗？还是等知识图谱技术成熟了之后再用？

王清琛： 知识图谱技术一直存在，高校也一直在研究。2017年开始有应用在机器人方向的导向。但是，知识图谱适合在特定场景下使用和擅长场景，并不是全部适用。知识图谱我们很早用过，但是在技术链中，他只是其中的一个环节，不能替代全部。

爱分析：用NLP技术应用在呼入场景时，会有哪些问题？

王清琛： 如果只用NLP技术解决呼入场景时，会使得效果大大削减，它可能只是在某一些场景会有好的效果。因此，需要针对用户具体的问题使用不同的方法，知识库会作为基石，但上面需要叠加很多的不同技术。

爱分析：机器是没有常识的，云问科技这边有什么解决方式？

王清琛： 随着技术的进步，未来一定会有相应的产品出现。我们也会构建，主要依靠知识库的积累，现有的数据来源比如有FAQ的数据，非结构化的文档资料，结构化的数据，通过NLP技术也可以快速的搭建针对问答的一套知识库。未来，将会去做知识库的自动理解和自动构建，这也是我们一直核心研发的智能辅助型的工具。

爱分析：多轮对话会是技术难度更高的一个点吗？

王清琛： 多轮对话的复杂度高，相对来说难度点是既能实现不同场景的多轮对话，又能满足高度定制化的需求。单纯的多轮对话技术难度不是很难，主要把各项NLP技术做一个综合的融合，就能解决这些问题。所以具体环节的落地更多的是工程化的工作，只做纯技术不结合业务还是不太适用。

目前我们能够完成10-20轮之间的多轮对话。

爱分析：去年google开源bert技术，会对行业会产生什么影响？

王清琛： 我们其实已经在逐步看到bert在行业内的影响力，云问目前已经在开展这方面的探索，初见成效，相信未来bert潜力无限。

爱分析：云问科技未来的发展规划是什么？

王清琛： 主要还是一点：AI变革企业服务全链条，包括企业的对内服务以及对外服务各个环节。

我们将侧重于深耕客服机器人在各个行业的业务场景、机器人理解的能力、以及是否能给企业创造更多的价值。现在我们已经安排业务人员对各个行业进行深入的调研，了解各个行业的痛点。我们也将制定全链条全环节智能化的解决方案。

爱分析：云问科技下一步往企业内部延伸，具体打算怎么做？

王清琛： 我们会和一些大型的企业，包括美的、海尔等，做一些深入的探讨，方向包括企业内部IT场景等。我们接触的很多客户都是大型客户，他们的业务数据异构程度、应用场景都比较高，这个会导致定制化产品比较重，所以我们把软件做了一个很好的分层，对于未来发展方向并没有限制。

爱分析：在多维表格方面，云问科技和一些金融公司做的方向是一样的吗？

王清琛： 我不太评价别人是怎么做的，我们是基于知识场景出发，去做表格理解、解读的能力。基于NLP技术，针对表格做一些深入化的理解和产品功能的提炼。

爱分析：云问科技后续会提供质检系统、销售系统等吗？

王清琛： 会的，只是目前我们主要精力还不会放在这些方面。

爱分析：云问科技会考虑NLP应用在其他场景吗？

王清琛： 我们会考虑做一些行业的定制深入优化，通用性不会那么多。今年云问已经成立了某些行业的业务线，做这些行业的深入挖掘和深度定制。

我们下个阶段可能会探讨NLP在保险、公共事业服务、交通物流等场景的产品落地。

三、NLP应用于司法系统（综述）

司法人员经常考虑使用rule-based和symbol-based方法解决任务，NLP研究者主要考虑data-driven和embedding方法。

在这篇文章中就主要讨论Legal AI的历史、现况、和未来的研究方向。

进行了一些试验来对现有的工作进行更有深度的分析，分析他们的优缺点，并揭示一些未来的研究方向。

可解释性强的symbolic models的效率不高，embedding-methods有更好的性能，但通常没有好的解释性，在一些道德相关的问题上有比较大的问题：经典性别和种族偏见。

我们总结了symbol-based methods和embedding-based方法共同面临的三个主要的挑战：

本文的研究贡献主要如下：

字和词嵌入很重要。

直接从司法案情描述中学习出专业词汇很困难。为了克服这种困难，可以同时捕捉 语法信息 和 司法知识 。

knowledge graph methods在司法领域很有前景，但是在实际使用之前，还是有两个主要的挑战：

这两种挑战让LegalAI通过embedding进行知识建模不平凡（non-trivial）。研究者在未来会尝试去克服这些困难。

预训练的语言模型（Pretrained language model，PLM）比如BERT，最近集中于很多NLP的领域。鉴于预训练模型的成功，在LegalAI中使用预训练模型是一个很合理很直接的选择。但是在司法文本中，这里还有一些不同，如果直接使用这些PLM会导致不好的性能。这些不同就来自于司法文本中所包含的术语和知识。为了解决这些问题，Zhong(2019)提出了一个中文司法文档的预训练模型，包括民事和（civil）刑事（criminal）案件的文档。针对司法领域设计的PLM给LegalAI任务提供了一个更有质量的baseline系统。我们在实验中对比不同的BERT模型应用于LegalAI任务。

对于在未来探索LegalAI中的PLM，研究者可以把目标放在整合knowledge进入PLM。整合knowledge进入预训练模型可以帮助推理司法概念之间。很多工作已经做了，去把general domain融入模型。

symbol-based methods也被叫做structured prediction methods。

符号化的司法知识包括：事件（events）和关系（relationship），这些可以提供可解释性。

深度学习方法可以用于提高symbol-based methods的性能。

信息提取（information extraction，IE）已经被广泛地在NLP中被研究。IE强调从文本中提取有价值的信息，一些技术比如：实体识别（entity recognition），关系提取（relation extraction），事件提取（event extraction）。

为了更好的使用司法文本，研究者尝试使用本体论（ontology）或者全球一致性（global consistency）在LegalAI的命名实体识别（named entity recognition）任务中。为了从司法文本中提取关系和事件，研究者尝试去使用不同的方法，包括：人工规则（hand-crafted rules），CRF（不知道这是啥），联合模型比如SVM，CNN，GRU，或者（scale-free identifier network）（不知道这是啥）。

现存的工作已经做出了很大努力去改善IE的效果，但我们需要跟多的注意力放在怎么好好利用这些提取出来的信息。这些提取出来的符号有司法基础（legal basis）而且可以对司法应用提供可解释性。所以我们不能只把目标定在方法的性能。在这里我们展示两个利用提取出的符号来提高LegalAI可解释性的例子：

在未来的工作中，我们需要更多注意，应用提取的信息在LegalAI任务中。这些信息的利用取决于特定任务的要求，而且这些信息可以提供更多的可解释性。

除了NLP中的共同的symbol，LegalAI有独有的symbol，称作legal elements。提取legal element专注于提取一些关键元素，比如：某个人是不是被杀了，或者某个东西是不是被偷了。这些元素是犯罪活动（crime）的基本组成元素，而且我们可以基于这些元素，直接给犯罪者定罪。利用这些元素，不仅可以给判决预测任务带来直接的监管信息，而且可以让模型的预测结果更加可解释。

从这个例子可以看出，提取元素可以决定判决结果。这些元素对于下游任务很有用。

为了更深度分析基于元素的symbol，Shu(2019)构造了用于提取元素的三个数据集：离婚纠纷，劳工纠纷，贷款纠纷。这些数据集需要我们检测相关元素是否被满足，并把这个任务规范化为一个多标签的分类任务。为了展示现存方法在element extraction上的性能，我们进行了一系列实验，如下表格所示。

我们实现了NLP中几个经典的encoding模型，为了检验elemetnt extraction。包括TextCNN，DPCNN，LSTM，BiDAF，BERT。我们用了两种不同的BERT预训练参数（原始BERT、用中文司法文档训练的BERT：BERT-MS）。从这个结果中可以看到，在广泛领域（general domain）上的预训练模型效果不如在特定领域（domain-specific）训练的预训练模型，这就是在LegalAI中推进PLM的必要性。paper的以下部分，我们就会使用在legal documents上预训练的BERT来达到一个更好的表现。

从目前的element extraction的结果来看，现存的方法已经达到了一个很好的性能，但是在相关的应用上仍然不够。这些元素可以被看作是预先定义好的legal knowledge并且帮助下游任务。怎么改善element extraction也是需要进一步研究。

介绍几个典型的应用：

Legal Judgment Prediction

Similar Case Matching

Legal Question Answering

Legal Judgment Prediction 和Similar Case Matching可以看作民事法律（Civil Law）和普通法系（Common Law System，英美法系，普通法系）判决的核心功能。Legal Question Answering可以给不懂法律的人提供咨询服务。因此探究这三个任务可以基本上涵盖LegalAI的大部分方面。

Legal Judgment Predction（LJP）在民事法律体系中很中国要。在民事法律体系中，判决结果是基于事实和法律条文。LJP主要关心怎么通过 事实描述 和民法中 相关条文 ，来预测判决结果。

下面将介绍LJP方面的研究进展，和未来的研究方向。

早期的工作包括：使用统计和数学方法在特定场景下分析司法案件。同时结合数学方法和司法规则让预测结果具有可解释性。

为了LJP的进展，Xiao(2018)提出了一个大规模的中文刑事判决预测数据集，C-LJP（c指chinese）。这个数据集包含2.68 million个司法文档，是一个LJP的有效的benchmark。C-LJP包含三个子任务：相关文章relevant articles，应用的指控applicable charges，刑期term of penalty。前两个可以被formalize为多标签分类任务，最后一个是回归任务。英文的LJP也有，但是规模比较小。

随着NLP发展，研究者开始考虑在LJP中使用NLP任务。这些工作可以分为两个主要方向：1. 使用更新的模型提高性能：Chen(2019)用门机制提高预测刑期（term of penalty）的性能，Pan(2019)提出使用多尺度（multi-scale）的attention，来处理含有多个被告的案件。除此之外，其他的研究者探究怎么使用legal knowledge和LJP的一些属性。Luo(2017)在fact和law articles之间使用attention来帮助预测可应用的指控（applicable charges）。Zhong(2018)使用拓扑图来利用不同LJP不同任务之间的关系。Hu(2018)整合了是个可辩别的（discriminative）司法属性（legal attributes）来帮助预测低频率的指控。

一系列在C-LJP上的实验

实验结果：

可以看到很多模型在预测高频率指控（high-frequency charges）和文章（articles）中达到了很好的性能。但是在低频率的标签上表现不好，表现为micro-F1和macro-F1之间有很大的差距。

Hu(2018)展示了把few-shot learning应用于LJP。然而他们的模型需要额外的人工添加一些属性信息，这就导致很费劲，而且难以在其他的数据集上应用。除此之外，我们发现BERT的性能不够好，因为在一些模型参数较少的模型上没有什么提升。主要的原因是司法文本的长度一般较长，但是BERT最长的文本长度是512。根据统计数据，最长的司法文本长度是5w多字，15%文档场都超过了512。因此LJP需要一些文本理解（document understanding）和推理技术（reasoning technique）。

虽然embedding-based方法已经有很好的效果了，但是在LJP中我们需要结合embedding-based和symbol-based。拿TopJudge作为一个例子，这个模型规范化LJP任务中（symbol-based part）的拓扑序， 并使用TextCNN用于编码fact description。 （有点好奇这个TopJudge里是怎么通过symbol-based搞一个拓扑序的？对模型是怎么样有用的。）通过结合symbol-based和embedding-based，TopJudge达到了一个很好的效果。通过对比TextCNN和TopJudge可以发现加judgements 的顺序（order）可以提升性能。

为了更好的LJP性能。一些挑战需要研究者来探索：

在使用Common Law System（这好像可以解释为卷宗法律系统，通过相似的案件来判案）的国家中，比如美国，加拿大，印度，判决决策是通过相似案件和有代表性的（representative）案件来进行的。因此，怎么识别出相似的案件，时Common Law System中所最需要的。

为了更好的预测Common Law System的判决结果，Similar Case Matching（SCM）成了LegalAI的一个重要的话题。SCM中对于相似度（similarity）的定义也是多种多样。SCM需要从不同的信息粒度（information of different granularity）来建模（modeling）案件之间的关联（relationship），比如事实级别（fact-level），事件级别（event-level），和元素级别（element-level）。换一种话说，就是SCM是语义匹配的一种特殊形式（semantic matching），这个对于提取司法信息（legal information retrieval）有帮助。

传统的IR方法集中于使用统计方法来衡量term-level 的相似性，比如TF-IDF。除此之外，其他研究者还尝试利用元信息（meta-information），来捕捉语义相似度。许多机器学习方法也被应用于IR，比如SVD或者矩阵分解（factorization），随着深度学习发展，多层感知机（multi-layer perceptron），CNN，RNN也被应用于IR。

已经有一些LegalIR的数据集：COLIEE，CaseLaw，CM。COLIEE和CaseLaw都被用于从大的语料库中提取最相关的文章。CM中的数据样例提供了三个司法文档用于计算相似度。这些dataset都提供了一个benchmark。许多研究者专注于建立易用的司法搜索引擎（legal search engine，司法版google）。

以计算语义级别（semantic-level）的相似度为目标，深度学习方法被用于LegalIR。Tran(2019)提出了一个CNN-based model，结合了文档级别（document-level）和句子级别（sentence-level）的池化（pooling），在COLIEE上达到了SOTA的效果。

为了对当前的LegalIR进展有一个更好的理解视角，我们使用CM(Xiao 2019)来进行实验。CM包含8964个三元组，每个三元组包含三个司法文档（A, B, C）。CM的任务就是分辨出B和C哪个更接近A。我们实现了几个不同类型的baseline：

我们发现，能够捕捉语义信息的模型性能超过了TF-IDF，但是应用到SCM还不够。如Xiao(2019)所说，主要的原因是司法人员认为数据集中的elements定义了司法案件之间的相似度。司法人员会比较看重两个案件是否有相关的元素（elements）。只考虑term-level和semantic-level的相似度是不足够的。

更深的SCM研究有以下几个方向需要努力：

Legal Question Answering（LQA）：司法方面的问答系统。

司法专业人员的一个很重要的任务是向不懂法的人提供可靠的、高质量的司法咨询服务。

LQA中，问题的形式会有比较大的变化：有的问题强调对于司法概念的解释，有的问题主要考虑对于特定案件的分析。另外，从专业人员和非专业人员口中表达专业词汇可能会有差别。这些问题给LQA带来了很多挑战。

LegalAI中有很多数据集，Duan(2019)提出CJRC，一个司法阅读理解数据集，和SQUAD 2.0有相似的格式，包括span extraction（不懂），yes/no questions，unanswerable questions。另外COLIEE包含500个yes/no questions。另外，律师资格考试（bar exam）对于律师来说是一个很重要的考试，因此律师资格考试数据集会比较难，因为需要专业的司法知识和技能。

除了这些数据集之外，研究者还用了很多方法在LQA上。rule-based systems在早期的研究中效果显著。为了更好的性能，研究者利用更多的信息，比如概念解释（explanation of concepts）或者把相关文档格式化为图（formalize relevant documents as graph）来帮助推理。机器学习和深度学习方法比如CRF，SVM，CNN也用于LQA。但是，大多数现存方法只在小数据集上进行了实验。

我们选择JEC-QA来作为实验的数据集，因为这是从律师资格考试中收集到的最大的数据集，保证他的困难程度。JEC-QA包含了28641个多项选择、多项回答问题，还包含了79433个相关的文章来帮助回答问题。JEC-QA把问题分为知识驱动问题（knowledge-driven questions, KD-Questions）和案件分析问题（case-analysis questions），并且提供了人类的表现。我们实现了几个有代表性的QA模型，包括BiDAF、BERT、Co-matching、HAF，这些实验结果在表6中呈现。

对比发现，这些模型不能在回答这些司法问题上跟回答open-domain的问题时有一样好的效果。在LQA上，模型和人类之间有巨大的差距。

为了有更好的LQA方法，这里有几个困难需要克服：

除了这篇文章中的，还有其他的LegalAI任务：司法文献概述（legal text summarization），从司法合同中进行信息提取（information extraction from legal contracts）。不管怎样，我们都能够应用embedding-based方法来提高性能，结合symbol-based方法提高可解释性。

三个主要的挑战：

未来的研究者可以主要结合embedding方法和symbol方法解决这三个挑战。

对于一些任务，还没有数据集，或者数据集不够大。我们可以尝试构建规模大、质量高的数据集，或者使用few - shot / zero - shot learning方法来解决这些问题。

四、NLP基本术语与基本概念-上

词是最小的能够独立活动的有意义的语言成分，英文单词之间是以空格作为自然分界符的，而汉语是以字为基本的书写单位，词语之间没有明显的区分标记，因此，中文词语分析是中文分词的基础与关键。中文和英文都存在分词的需求，不过相较而言，英文单词本来就有空格进行分割，所以处理起来相对方便。但是，由于中文是没有分隔符的，所以分词的问题就比较重要。分词常用的手段是基于字典的最长串匹配，据说可以解决85%的问题，但是歧义分词很难。举个例子，“美国会通过对台售武法案”，我们既可以切分为“美国/会/通过对台售武法案”，又可以切分成“美/国会/通过对台售武法案”。

中文分词技术可分为三大类：

基于机器学习的方法里，往往需要对词的词性进行标注。词性一般是指动词、名词、形容词等。标注的目的是表征词的一-种隐藏状态，隐藏状态构成的转移就构成了状态转移序列。例如:我/r爱/v北京/ns天安门/ns。其中，ns代表名词，v代表动词，ns、v都是标注，以此类推。

词性作为对词的一种泛化，在语言识别、句法分析、信息抽取等任务中有重要作用。

http://blog.csdn.net/truong/article/details/18847549

命名实体是指从文本中识别具有特定类别的实体(通常是名词),例如人名、地名、机构名、专有名词等。主要包含两部分：

命名实体识别是信息提取、问答系统、句法分析、机器翻译、面向SemanticWeb的元数据标注等应用领域的重要基础工具。

https://blog.csdn.net/u012879957/article/details/81777838

句法分析往往是一种基于规则的专家系统。当然也不是说它不能用统计学的方法进行构建，不过最初的时候，还是利用语言学专家的知识来构建的。句法分析的目的是解析句子中各个成分的依赖关系。所以，往往最终生成的结果是一棵句法分析树。句法分析可以解决传统词袋模型不考虑上下文的问题。比如，“小李是小杨的班长”和“小杨是小李的班长”，这两句话，用词袋模型是完全相同的，但是句法分析可以分析出其中的主从关系，真正理清句子的关系。

中文中代词出现的频率很高，它的作用的是用来表征前文出现过的人名、地名等。例如，清华大学坐落于北京，这家大学是目前中国最好的大学之-。在这句话中，其实“清华大学”这个词出现了两次，“这家大学指代的就是清华大学。但是出于中文的习惯，我们不会把“清华大学”再重复一遍。

一般情况下，指代分为2种：回指和共指。

回指是指当前的照应语与上文出现的词、短语或句子（句群）存在密切的语义关联性，指代依存于上下文语义中，在不同的语言环境中可能指代不同的实体，具有非对称性和非传递性；

共指主要是指2个名词(包括代名词、名词短语)指向真实世界中的同一参照体，这种指代脱离上下文仍然成立。

目前指代消解研究主要侧重于等价关系，只考虑2个词或短语是否指示现实世界中同一实体的问题，即共指消解。

中文的指代主要有3种典型的形式：

所谓情感识别，本质上是分类问题，经常被应用在舆情分析等领域。情感一般可以分为两类，即正面、负面，也可以是三类，在前面的基础上，再加上中性类别。一般来说，在电商企业，情感识别可以分析商品评价的好坏，以此作为下一个环节的评判依据。通常可以基于词袋模型+分类器，或者现在流行的词向量模型+RNN。经过测试发现，后者比前者准确率略有提升。

自动纠错在搜索技术以及输人法中利用得很多。由于用户的输人出错的可能性比较大，出错的场景也比较多。所以，我们需要一个纠错系统。具体做法有很多，可以基于N-Gram进行纠错，也可以通过字典树、有限状态机等方法进行纠错。

这是一种类似机器人的人工智能系统。比较著名的有:苹果Siri、IBM Watson、微软小冰等。问答系统往往需要语音识别、合成，自然语言理解、知识图谱等多项技术的

问答系统（Question Answering System, QA）是信息检索系统的一种高级形式，它能用准确、简洁的自然语言回答用户用自然语言提出的问题。

基于自由文本的问答系统，基本上分为三个模块：

问句分析->文档检索->答案抽取（验证）

https://blog.csdn.net/class_guy/article/details/81535287

针对目标句子，进行各种句法分析，如分词、词性标记、命名实体识别及链接、句法分析、语义角色识别和多义词消歧等。

抽取目标文本中的主要信息，比如从一-条新闻中抽取关键信息。主要是了解是谁、于何时、为何、对谁、做了何事、产生了有什么结果。涉及实体识别、时间抽取、因果关系抽取等多项关键技术。

主要包含了对文本的聚类、分类、信息抽取、摘要、情感分析以及对挖掘的信息和知识的可视化、交互式的呈现界面。

将输人的源语言文本通过自动翻译转化为另种语言的文本。根据输人数据类型的不同，可细分为文本翻译、语音翻译、手语翻译、图形翻译等。机器翻译从最早的基于规则到二十年前的基于统计的方法，再到今天的基于深度学习(编解码)的方法，逐渐形成了一套比较严谨的方法体系。

对大规模的文档进行索引。可简单对文档中的词汇，赋以不同的权重来建立索引，也可使用算法模型来建立更加深层的索引。查询时，首先对输人比进行分析，然后在索引里面查找匹配的候选文档，再根据一个排序机制把候选文档排序，最后输出排序得分最高的文档。

针对某个自然语言表达的问题，由问答系统给出一个精准的答案。需要对自然语言查询语句进行语义分析，包括实体链接、关系识别，形成逻辑表达式，然后到知识库中查我可能的候选答案并通过-个排序机制找出最佳的答案。