HOME 首页
SERVICE 服务产品
XINMEITI 新媒体代运营
CASE 服务案例
NEWS 热点资讯
ABOUT 关于我们
CONTACT 联系我们
创意岭
让品牌有温度、有情感
专注品牌策划15年

    知识图谱和图神经网络

    发布时间:2023-04-22 07:38:10     稿源: 创意岭    阅读: 96        

    大家好!今天让创意岭的小编来大家介绍下关于知识图谱和图神经网络的问题,以下是小编对此问题的归纳整理,让我们一起来看看吧。

    开始之前先推荐一个非常厉害的Ai人工智能工具,一键生成原创文章、方案、文案、工作计划、工作报告、论文、代码、作文、做题和对话答疑等等

    只需要输入关键词,就能返回你想要的内容,越精准,写出的就越详细,有微信小程序端、在线网页版、PC客户端

    官网:https://ai.de1919.com

    创意岭作为行业内优秀的企业,服务客户遍布全球各地,如需了解SEO相关业务请拨打电话175-8598-2043,或添加微信:1454722008

    本文目录:

    知识图谱和图神经网络

    一、知识图谱概念是什么?

    知识图谱的概念是:知识图谱是自顶向下(top-down)的构建方式。自顶向下指的是先为知识图谱定义好本体与数据模式,再将实体加入到知识库

    该构建方式需要利用一些现有的结构化知识库作为其基础知识库,例如 Freebase 项目就是采用这种方式,它的绝大部分数据是从维基百科中得到的。

    然而目前,大多数知识图谱都采用自底向上(bottom-up)的构建方式。自底向上指的是从一些开放连接数据(也就是 “信息”)中提取出实体,选择其中置信度较高的加入到知识库,再构建实体与实体之间的联系。

    知识图谱和图神经网络

    知识图谱的体系架构是:

    知识图谱的架构主要包括自身的逻辑结构以及体系架构。

    知识图谱在逻辑结构上可分为模式层与数据层两个层次,数据层主要是由一系列的事实组成,而知识将以事实为单位进行存储。

    如果用(实体1,关系,实体2)、(实体、属性,属性值)这样的三元组来表达事实,可选择图数据库作为存储介质,例如开源的 Neo4j、Twitter 的 FlockDB、JanusGraph 等。

    模式层构建在数据层之上,主要是通过本体库来规范数据层的一系列事实表达。本体是结构化知识库的概念模板,通过本体库而形成的知识库不仅层次结构较强,并且冗余程度较小。

    大规模知识库的构建与应用需要多种智能信息处理技术的支持。通过知识抽取技术,可以从一些公开的半结构化、非结构化的数据中提取出实体、关系、属性等知识要素。通过知识融合,可消除实体、关系、属性等指称项与事实对象之间的歧义,形成高质量的知识库。

    知识推理则是在已有的知识库基础上进一步挖掘隐含的知识,从而丰富、扩展知识库。分布式的知识表示形成的综合向量对知识库的构建、推理、融合以及应用均具有重要的意义。

    二、2020 推荐系统技术演进趋势了解

    读知乎文章《推荐系统技术演进趋势:从召回到排序再到重排》笔记:

    《推荐系统技术演进趋势:从召回到排序再到重排》这篇文章主要说了下最近两年,推荐系统技术的一些比较明显的技术发展趋势。主要从以下几个方面介绍:

    推荐系统整体架构

    召回技术演进趋势

    排序模型技术演进趋势

    重排技术演进趋势

    推荐系统宏观架构:

    细分四阶段:

    1、传统:多路召回(每一路召回相当于单特征排序结果)

    2、未来:模型召回(引入多特征,把单特征排序拓展成多特征排序的模型)

    (1)模型召回

    根据用户物品Embedding,采用类似Faiss等高效Embedding检索工具,快速找出和用户兴趣匹配的物品,这样就等于做出了利用多特征融合的召回模型了。

    理论上来说,任何你能见到的有监督模型,都可以用来做这个召回模型,比如FM/FFM/DNN等,常说的所谓“双塔”模型,指的其实是用户侧和物品侧特征分离分别打Embedding的结构而已,并非具体的模型。

    值得注意的一点是:如果在召回阶段使用模型召回,理论上也应该同步采用和排序模型相同的优化目标,尤其是如果排序阶段采用多目标优化的情况下,召回模型也应该对应采取相同的多目标优化。同理,如果整个流程中包含粗排模块,粗排也应该采用和精排相同的多目标优化,几个环节优化目标应保持一致。因为召回和粗排是精排的前置环节,否则,如果优化目标不一致,很可能会出现高质量精排目标,在前置环节就被过滤掉的可能,影响整体效果。

    (2)用户行为序列召回

    核心在于:这个物品聚合函数Fun如何定义的问题。这里需要注意的一点是:用户行为序列中的物品,是有时间顺序的。理论上,任何能够体现时序特点或特征局部性关联的模型,都比较适合应用在这里,典型的比如CNN、RNN、Transformer、GRU(RNN的变体模型)等,都比较适合用来集成用户行为序列信息。

    在召回阶段,如何根据用户行为序列打embedding,可以采取有监督的模型,比如Next Item Prediction的预测方式即可;也可以采用无监督的方式,比如物品只要能打出embedding,就能无监督集成用户行为序列内容,例如Sum Pooling。

    (3)用户多兴趣拆分 (利用用户行为物品序列,打出用户兴趣Embedding的做法)

    (4)知识图谱融合召回

    根据用户的兴趣实体,通过知识图谱的实体Embedding化表达后(或者直接在知识图谱节点上外扩),通过知识外扩或者可以根据Embedding相似性,拓展出相关实体。

    (5)图神经网络模型召回

    图神经网络的最终目的是要通过一定技术手段,获得图中节点的embedding编码。最常用的embedding聚合工具是CNN,对于某个图节点来说,它的输入可以有两类信息,一类是自身的属性信息,比如上面举的微博的例子;另外一类是图结构信息,就是和当前节点有直接边关联的其它节点信息。 通过CNN,可以对两类信息进行编码和聚合,形成图节点的embedding。 通过CNN等信息聚合器,在图节点上进行计算,并反复迭代更新图节点的embedding,就能够最终获得可靠的图节点embedding信息,而这种迭代过程,其实体现的是远距离的节点将信息逐步通过图结构传递信息的过程,所以图结构是可以进行知识传递和补充的。

    我们可以进一步思考下,图节点因为可以带有属性信息,比如物品的Content信息,所以明显这对于解决物品侧的冷启动问题有帮助;而因为它也允许知识在图中远距离进行传递,所以比如对于用户行为比较少的场景,可以形成知识传递和补充,这说明它也比较适合用于数据稀疏的推荐场景;另外一面,图中的边往往是通过用户行为构建的,而用户行为,在统计层面来看,本质上是一种协同信息,比如我们常说的“A物品协同B物品”,本质上就是说很多用户行为了物品A后,大概率会去对物品B进行行为; 所以图具备的一个很好的优势是:它比较便于把协同信息、用户行为信息、内容属性信息等各种异质信息在一个统一的框架里进行融合,并统一表征为embedding的形式,这是它独有的一个优势,做起来比较自然。另外的一个特有优势,就是信息在图中的传播性,所以对于推荐的冷启动以及数据稀疏场景应该特别有用。

    早期的图神经网络做推荐,因为需要全局信息,所以计算速度是个问题,往往图规模都非常小,不具备实战价值。而GraphSAGE则通过一些手段比如从临近节点进行采样等减少计算规模,加快计算速度,很多后期改进计算效率的方法都是从这个工作衍生的;而PinSage在GraphSAGE基础上(这是同一拨人做的),进一步采取大规模分布式计算,拓展了图计算的实用性,可以计算Pinterest的30亿规模节点、180亿规模边的巨型图,并产生了较好的落地效果。所以这两个工作可以重点借鉴一下。

    总体而言,图模型召回,是个很有前景的值得探索的方向。

    模型优化目标则体现了我们希望推荐系统去做好什么,往往跟业务目标有关联,这里我们主要从技术角度来探讨,而多目标优化以及ListWise最优是目前最常见的技术进化方向,ListWise优化目标在排序阶段和重排阶段都可采用,我们把它放到重排部分去讲,这里主要介绍多目标优化;

    模型表达能力代表了模型是否具备充分利用有效特征及特征组合的能力,其中显示特征组合、新型特征抽取器、增强学习技术应用以及AutoML自动探索模型结构是这方面明显的技术进化方向;

    从特征和信息角度,如何采用更丰富的新类型特征,以及信息和特征的扩充及融合是主要技术进化方向,用户长短期兴趣分离、用户行为序列数据的使用、图神经网络以及多模态融合等是这方面的主要技术趋势。

    1.1 模型优化目标-多目标优化

    推荐系统的多目标优化(点击,互动,时长等多个目标同时优化)严格来说不仅仅是趋势,而是目前很多公司的研发现状。对于推荐系统来说,不同的优化目标可能存在互相拉后腿的现象,多目标旨在平衡不同目标的相互影响,而如果多目标优化效果好,对于业务效果的推动作用也非常大。总而言之,多目标优化是值得推荐系统相关研发人员重点关注的技术方向。

    从技术角度讲,多目标优化最关键的有两个问题。第一个问题是多个优化目标的模型结构问题;第二个问题是不同优化目标的重要性如何界定的问题(超参如何寻优)。

    2.1 模型表达能力-显式特征组合

    如果归纳下工业界CTR模型的演化历史的话,你会发现,特征工程及特征组合的自动化,一直是推动实用化推荐系统技术演进最主要的方向,而且没有之一。最早的LR模型,基本是人工特征工程及人工进行特征组合的,简单有效但是费时费力;再发展到LR+GBDT的 高阶特征组合自动化 ,以及FM模型的 二阶特征组合自动化 ;再往后就是DNN模型的引入,纯粹的简单DNN模型本质上其实是在FM模型的特征Embedding化基础上,添加几层MLP隐层来进行隐式的特征非线性自动组合而已。

    2.2 模型表达能力-特征抽取器的进化

    从特征抽取器的角度来看,目前主流的DNN 排序模型,最常用的特征抽取器仍然是MLP结构,图像领域的CNN、NLP领域的RNN和Transformer。

    MLP结构通常是两层或者三层的MLP隐层。目前也有理论研究表明:MLP结构用来捕获特征组合,是效率比较低下的。

    CNN捕获局部特征关联是非常有效的结构,但是并不太适合做纯特征输入的推荐模型,因为推荐领域的特征之间,在输入顺序上并无必然的序列关系,CNN的捕获远距离特征关系能力差的弱点,以及RNN的不可并行处理、所以速度慢的劣势等。

    Transformer作为NLP领域最新型也是最有效的特征抽取器,从其工作机制来说,其实是非常适合用来做推荐的。为什么这么说呢?核心在于Transformer的Multi-Head Self Attention机制上。MHA结构在NLP里面,会对输入句子中任意两个单词的相关程度作出判断,而如果把这种关系套用到推荐领域,就是通过MHA来对任意特征进行特征组合,而上文说过,特征组合对于推荐是个很重要的环节,所以从这个角度来说,Transformer是特别适合来对特征组合进行建模的,一层Transformer Block代表了特征的二阶组合,更多的Transformer Block代表了更高阶的特征组合。但是,实际上如果应用Transformer来做推荐,其应用效果并没有体现出明显优势,甚至没有体现出什么优势,基本稍微好于或者类似于典型的MLP结构的效果。这意味着,可能我们需要针对推荐领域特点,对Transformer需要进行针对性的改造,而不是完全直接照搬NLP里的结构。

    截一张张老师其他关于Transformer的图,足以说明Transformer的意义,但现在还不是很懂,哈哈~

    2.3 AutoML在推荐的应用

    AutoML在17年初开始出现,最近三年蓬勃发展,在比如图像领域、NLP领域等都有非常重要的研究进展,在这些领域,目前都能通过AutoML找到比人设计的效果更好的模型结构。

    2.4 增强学习在推荐的应用

    增强学习其实是比较吻合推荐场景建模的。一般而言,增强学习有几个关键要素:状态、行为以及回报。在推荐场景下,我们可以把状态St定义为用户的行为历史物品集合;推荐系统可选的行为空间则是根据用户当前状态St推荐给用户的推荐结果列表,这里可以看出,推荐场景下,用户行为空间是巨大无比的,这制约了很多无法对巨大行为空间建模的增强学习方法的应用;而回报呢,则是用户对推荐系统给出的列表内容进行互动的行为价值,比如可以定义点击了某个物品,则回报是1,购买了某个物品,回报是5….诸如此类。有了这几个要素的场景定义,就可以用典型的增强学习来对推荐进行建模。

    3.1 多模态信息融合

    多模态融合,从技术手段来说,本质上是把不同模态类型的信息,通过比如Embedding编码,映射到统一的语义空间内,使得不同模态的信息,表达相同语义的信息完全可类比。比如说自然语言说的单词“苹果”,和一张苹果的图片,应该通过一定的技术手段,对两者进行信息编码,比如打出的embedding,相似度是很高的,这意味着不同模态的知识映射到了相同的语义空间了。这样,你可以通过文本的苹果,比如搜索包含苹果的照片。

    3.2 长期兴趣/短期兴趣分离

    对于推荐系统而言,准确描述用户兴趣是非常重要的。目前常用的描述用户兴趣的方式主要有两类。一类是以用户侧特征的角度来表征用户兴趣,也是最常见的;另外一类是以用户发生过行为的物品序列作为用户兴趣的表征。

    关于List Wise重排序,可以从两个角度来说,一个是优化目标或损失函数;一个是推荐模块的模型结构。

    推荐系统里Learning to Rank做排序,我们知道常见的有三种优化目标:Point Wise、Pair Wise和List Wise。所以我们首先应该明确的一点是:List Wise它不是指的具体的某个或者某类模型,而是指的模型的优化目标或者损失函数定义方式,理论上各种不用的模型都可以使用List Wise损失来进行模型训练。最简单的损失函数定义是Point Wise,就是输入用户特征和单个物品特征,对这个物品进行打分,物品之间的排序,就是谁应该在谁前面,不用考虑。明显这种方式无论是训练还是在线推理,都非常简单直接效率高,但是它的缺点是没有考虑物品直接的关联,而这在排序中其实是有用的。Pair Wise损失在训练模型时,直接用两个物品的顺序关系来训练模型,就是说优化目标是物品A排序要高于物品B,类似这种优化目标。其实Pair Wise的Loss在推荐领域已经被非常广泛得使用,比如BPR损失,就是典型且非常有效的Pair Wise的Loss Function,经常被使用,尤其在隐式反馈中,是非常有效的优化目标。List Wise的Loss更关注整个列表中物品顺序关系,会从列表整体中物品顺序的角度考虑,来优化模型。在推荐中,List Wise损失函数因为训练数据的制作难,训练速度慢,在线推理速度慢等多种原因,尽管用的还比较少,但是因为更注重排序结果整体的最优性,所以也是目前很多推荐系统正在做的事情。

    从模型结构上来看。因为重排序模块往往是放在精排模块之后,而精排已经对推荐物品做了比较准确的打分,所以往往重排模块的输入是精排模块的Top得分输出结果,也就是说,是有序的。而精排模块的打分或者排序对于重排模块来说,是非常重要的参考信息。于是,这个排序模块的输出顺序就比较重要,而能够考虑到输入的序列性的模型,自然就是重排模型的首选。我们知道,最常见的考虑时序性的模型是RNN和Transformer,所以经常把这两类模型用在重排模块,这是很自然的事情。一般的做法是:排序Top结果的物品有序,作为RNN或者Transformer的输入,RNN或者Transformer明显可以考虑在特征级别,融合当前物品上下文,也就是排序列表中其它物品,的特征,来从列表整体评估效果。RNN或者Transformer每个输入对应位置经过特征融合,再次输出预测得分,按照新预测的得分重新对物品排序,就完成了融合上下文信息,进行重新排序的目的。

    参考资料:

    1、推荐系统技术演进趋势:从召回到排序再到重排

    https://zhuanlan.zhihu.com/p/100019681

    2、模型召回典型工作:

    FM模型召回: 推荐系统召回四模型之:全能的FM模型

    DNN双塔召回:Sampling-Bias-Corrected Neural Modeling for Large Corpus Item Recommendations

    3、用户行为序列召回典型工作:

    GRU:Recurrent Neural Networks with Top-k Gains for Session-based Recommendations

    CNN:Personalized Top-N Sequential Recommendation via Convolutional Sequence Embedding

    Transformer: Self-Attentive Sequential Recommendation

    4、知识图谱融合召回典型工作:

    KGAT: Knowledge Graph Attention Network for Recommendation

    RippleNet: Propagating User Preferences on the Knowledge Graph for Recommender Systems

    5、图神经网络模型召回典型工作:

    GraphSAGE: Inductive Representation Learning on Large Graphs

    PinSage: Graph Convolutional Neural Networks for Web-Scale Recommender Systems

    6、模型多目标优化典型工作:

    MMOE:Modeling Task Relationships in Multi-task Learning with Multi-gate Mixture-of-Experts

    帕累托最优:A Pareto-Efficient Algorithm for Multiple Objective Optimization in E-Commerce Recommendation

    7、显式特征组合典型工作:

    Deep& Cross: Deep & Cross Network for Ad Click Predictions

    XDeepFM: Combining Explicit and Implicit Feature Interactions for Recommender Systems

    8、特征抽取器典型工作:

    AutoInt: Automatic Feature Interaction Learning via Self-Attentive Neural Networks

    DeepFM: An End-to-End Wide & Deep Learning Framework for CTR Prediction

    9、对比CNN\RNN\特征抽取器: https://zhuanlan.zhihu.com/p/54743941

    10、AutoML在推荐的应用典型工作:

    ENAS结构搜索: AutoML在推荐排序网络结构搜索的应用

    双线性特征组合: FiBiNET: Combining Feature Importance and Bilinear feature Interaction for Click-Through Rate Prediction

    11、增强学习在推荐的应用典型工作:

    Youtube: Top-K Off-Policy Correction for a REINFORCE Recommender System

    Youtube: Reinforcement Learning for Slate-based Recommender Systems: A Tractable Decomposition and Practical Methodology

    12、多模态融合典型工作:

    DNN召回:Collaborative Multi-modal deep learning for the personalized product retrieval in Facebook Marketplace

    排序:Image Matters: Visually modeling user behaviors using Advanced Model Server

    13、长短期兴趣分离典型工作:

    1. Neural News Recommendation with Long- and Short-term User Representations

    2. Sequence-Aware Recommendation with Long-Term and Short-Term Attention Memory Networks

    14、List Wise重排序典型工作:

    1.Personalized Re-ranking for Recommendation

    2.Learning a Deep Listwise Context Model for Ranking Refinement

    三、知识图谱有什么用处?

    知识图谱 (Knowledge Graph) 是当前的研究热点。自从2012年Google推出自己第一版知识图谱以来,它在学术界和工业界掀起了一股热潮。各大互联网企业在之后的短短一年内纷纷推出了自己的知识图谱产品以作为回应。比如在国内,互联网巨头百度和搜狗分别推出”知心“和”知立方”来改进其搜索质量。那么与这些传统的互联网公司相比,对处于当今风口浪尖上的行业 - 互联网金融, 知识图谱可以有哪方面的应用呢?

    目录

    1. 什么是知识图谱?

    2. 知识图谱的表示

    3. 知识图谱的存储

    4. 应用

    5. 挑战

    6. 结语

    1. 什么是知识图谱?

    知识图谱本质上是语义网络,是一种基于图的数据结构,由节点(Point)和边(Edge)组成。在知识图谱里,每个节点表示现实世界中存在的“实体”,每条边为实体与实体之间的“关系”。知识图谱是关系的最有效的表示方式。通俗地讲,知识图谱就是把所有不同种类的信息(Heterogeneous Information)连接在一起而得到的一个关系网络。知识图谱提供了从“关系”的角度去分析问题的能力。

    知识图谱和图神经网络

    知识图谱这个概念最早由Google提出,主要是用来优化现有的搜索引擎。不同于基于关键词搜索的传统搜索引擎,知识图谱可用来更好地查询复杂的关联信息,从语义层面理解用户意图,改进搜索质量。比如在Google的搜索框里输入Bill Gates的时候,搜索结果页面的右侧还会出现Bill Gates相关的信息比如出生年月,家庭情况等等。

    知识图谱和图神经网络

    另外,对于稍微复杂的搜索语句比如 ”Who is the wife of Bill Gates“,Google能准确返回他的妻子Melinda Gates。这就说明搜索引擎通过知识图谱真正理解了用户的意图。

    知识图谱和图神经网络

    上面提到的知识图谱都是属于比较宽泛的范畴,在通用领域里解决搜索引擎优化和问答系统(Question-Answering)等方面的问题。接下来我们看一下特定领域里的 (Domain-Specific) 知识图谱表示方式和应用,这也是工业界比较关心的话题。

    2. 知识图谱的表示

    假设我们用知识图谱来描述一个事实(Fact) - “张三是李四的父亲”。这里的实体是张三和李四,关系是“父亲”(is_father_of)。当然,张三和李四也可能会跟其他人存在着某种类型的关系(暂时不考虑)。当我们把电话号码也作为节点加入到知识图谱以后(电话号码也是实体),人和电话之间也可以定义一种关系叫 has_phone,就是说某个电话号码是属于某个人。下面的图就展示了这两种不同的关系。

    知识图谱和图神经网络

    另外,我们可以把时间作为属性(Property)添加到 has_phone 关系里来表示开通电话号码的时间。这种属性不仅可以加到关系里,还可以加到实体当中,当我们把所有这些信息作为关系或者实体的属性添加后,所得到的图谱称之为属性图 (Property Graph)。属性图和传统的RDF格式都可以作为知识图谱的表示和存储方式,但二者还是有区别的,这将在后面章节做简单说明。

    3. 知识图谱的存储

    知识图谱是基于图的数据结构,它的存储方式主要有两种形式:RDF存储格式和图数据库(Graph Database)。至于它们有哪些区别,请参考【1】。下面的曲线表示各种数据存储类型在最近几年的发展情况。从这里我们可以明显地看到基于图的存储方式在整个数据库存储领域的飞速发展。这幅曲线图来源于 Graph DBMS increased their popularity by 500% within the last 2 years

    知识图谱和图神经网络

    下面的列表表示的是目前比较流行的基于图存储的数据库排名。从这个排名中可以看出neo4j在整个图存储领域里占据着NO.1的地位,而且在RDF领域里Jena还是目前为止最为流行的存储框架。这部分数据来源于 DB-Engines Ranking

    知识图谱和图神经网络

    当然,如果需要设计的知识图谱非常简单,而且查询也不会涉及到1度以上的关联查询,我们也可以选择用关系型数据存储格式来保存知识图谱。但对那些稍微复杂的关系网络(现实生活中的实体和关系普遍都比较复杂),知识图谱的优点还是非常明显的。首先,在关联查询的效率上会比传统的存储方式有显著的提高。当我们涉及到2,3度的关联查询,基于知识图谱的查询效率会高出几千倍甚至几百万倍。其次,基于图的存储在设计上会非常灵活,一般只需要局部的改动即可。比如我们有一个新的数据源,我们只需要在已有的图谱上插入就可以。于此相反,关系型存储方式灵活性方面比较差,它所有的Schema都是提前定义好的,如果后续要改变,它的代价是非常高的。最后,把实体和关系存储在图数据结构是一种符合整个故事逻辑的最好的方式。

    4. 应用

    在本文中,我们主要讨论知识图谱在互联网金融行业中的应用。当然,很多应用场景和想法都可以延伸到其他的各行各业。这里提到的应用场景只是冰山一角, 在很多其他的应用上,知识图谱仍然可以发挥它潜在的价值, 我们在后续的文章中会继续讨论。

    反欺诈

    反欺诈是风控中非常重要的一道环节。基于大数据的反欺诈的难点在于如何把不同来源的数据(结构化,非结构)整合在一起,并构建反欺诈引擎,从而有效地识别出欺诈案件(比如身份造假,团体欺诈,代办包装等)。而且不少欺诈案件会涉及到复杂的关系网络,这也给欺诈审核带来了新的挑战。 知识图谱,作为关系的直接表示方式,可以很好地解决这两个问题。 首先,知识图谱提供非常便捷的方式来添加新的数据源,这一点在前面提到过。其次,知识图谱本身就是用来表示关系的,这种直观的表示方法可以帮助我们更有效地分析复杂关系中存在的特定的潜在风险。

    反欺诈的核心是人,首先需要把与借款人相关的所有的数据源打通,并构建包含多数据源的知识图谱,从而整合成为一台机器可以理解的结构化的知识。在这里,我们不仅可以整合借款人的基本信息(比如申请时填写的信息),还可以把借款人的消费记录、行为记录、网上的浏览记录等整合到整个知识图谱里,从而进行分析和预测。这里的一个难点是很多的数据都是从网络上获取的非结构化数据,需要利用机器学习、自然语言处理技术把这些数据变成结构化的数据。

    知识图谱和图神经网络

    不一致性验证

    不一致性验证可以用来判断一个借款人的欺诈风险,这个跟交叉验证类似。比如借款人张三和借款人李四填写的是同一个公司电话,但张三填写的公司和李四填写的公司完全不一样,这就成了一个风险点,需要审核人员格外的注意。

    知识图谱和图神经网络

    再比如,借款人说跟张三是朋友关系,跟李四是父子关系。当我们试图把借款人的信息添加到知识图谱里的时候,“一致性验证”引擎会触发。引擎首先会去读取张三和李四的关系,从而去验证这个“三角关系”是否正确。很显然,朋友的朋友不是父子关系,所以存在着明显的不一致性。

    知识图谱和图神经网络

    不一致性验证涉及到知识的推理。通俗地讲,知识的推理可以理解成“链接预测”,也就是从已有的关系图谱里推导出新的关系或链接。 比如在上面的例子,假设张三和李四是朋友关系,而且张三和借款人也是朋友关系,那我们可以推理出借款人和李四也是朋友关系。

    组团欺诈

    相比虚假身份的识别,组团欺诈的挖掘难度更大。这种组织在非常复杂的关系网络里隐藏着,不容易被发现。当我们只有把其中隐含的关系网络梳理清楚,才有可能去分析并发现其中潜在的风险。知识图谱,作为天然的关系网络的分析工具,可以帮助我们更容易地去识别这种潜在的风险。举一个简单的例子,有些组团欺诈的成员会用虚假的身份去申请贷款,但部分信息是共享的。下面的图大概说明了这种情形。从图中可以看出张三、李四和王五之间没有直接的关系,但通过关系网络我们很容易看出这三者之间都共享着某一部分信息,这就让我们马上联想到欺诈风险。虽然组团欺诈的形式众多,但有一点值得肯定的是知识图谱一定会比其他任何的工具提供更佳便捷的分析手段。

    知识图谱和图神经网络

    异常分析(Anomaly Detection)

    异常分析是数据挖掘研究领域里比较重要的课题。我们可以把它简单理解成从给定的数据中找出“异常”点。在我们的应用中,这些”异常“点可能会关联到欺诈。既然知识图谱可以看做是一个图 (Graph),知识图谱的异常分析也大都是基于图的结构。由于知识图谱里的实体类型、关系类型不同,异常分析也需要把这些额外的信息考虑进去。大多数基于图的异常分析的计算量比较大,可以选择做离线计算。在我们的应用框架中,可以把异常分析分为两大类: 静态分析和动态分析,后面会逐一讲到。

    - 静态分析

    所谓的静态分析指的是,给定一个图形结构和某个时间点,从中去发现一些异常点(比如有异常的子图)。下图中我们可以很清楚地看到其中五个点的相互紧密度非常强,可能是一个欺诈组织。所以针对这些异常的结构,我们可以做出进一步的分析。

    - 动态分析

    所谓的动态分析指的是分析其结构随时间变化的趋势。我们的假设是,在短时间内知识图谱结构的变化不会太大,如果它的变化很大,就说明可能存在异常,需要进一步的关注。分析结构随时间的变化会涉及到时序分析技术和图相似性计算技术。有兴趣的读者可以去参考这方面的资料【2】。

    知识图谱和图神经网络

    失联客户管理

    除了贷前的风险控制,知识图谱也可以在贷后发挥其强大的作用。比如在贷后失联客户管理的问题上,知识图谱可以帮助我们挖掘出更多潜在的新的联系人,从而提高催收的成功率。

    现实中,不少借款人在借款成功后出现不还款现象,而且玩“捉迷藏”,联系不上本人。即便试图去联系借款人曾经提供过的其他联系人,但还是没有办法联系到本人。这就进入了所谓的“失联”状态,使得催收人员也无从下手。那接下来的问题是,在失联的情况下,我们有没有办法去挖掘跟借款人有关系的新的联系人? 而且这部分人群并没有以关联联系人的身份出现在我们的知识图谱里。如果我们能够挖掘出更多潜在的新的联系人,就会大大地提高催收成功率。举个例子,在下面的关系图中,借款人跟李四有直接的关系,但我们却联系不上李四。那有没有可能通过2度关系的分析,预测并判断哪些李四的联系人可能会认识借款人。这就涉及到图谱结构的分析。

    知识图谱和图神经网络

    智能搜索及可视化展示

    基于知识图谱,我们也可以提供智能搜索和数据可视化的服务。智能搜索的功能类似于知识图谱在Google, Baidu上的应用。也就是说,对于每一个搜索的关键词,我们可以通过知识图谱来返回更丰富,更全面的信息。比如搜索一个人的身份证号,我们的智能搜索引擎可以返回与这个人相关的所有历史借款记录、联系人信息、行为特征和每一个实体的标签(比如黑名单,同业等)。另外,可视化的好处不言而喻,通过可视化把复杂的信息以非常直观的方式呈现出来, 使得我们对隐藏信息的来龙去脉一目了然。

    精准营销

    “A knowledge graph allows you to take core information about your customer—their name, where they reside, how to contact them—and relate it to who else they know, how they interact on the web, and more”-- Michele Goetz, a Principal Analyst at Forrester Research

    一个聪明的企业可以比它的竞争对手以更为有效的方式去挖掘其潜在的客户。在互联网时代,营销手段多种多样,但不管有多少种方式,都离不开一个核心 - 分析用户和理解用户。知识图谱可以结合多种数据源去分析实体之间的关系,从而对用户的行为有更好的理解。比如一个公司的市场经理用知识图谱来分析用户之间的关系,去发现一个组织的共同喜好,从而可以有针对性的对某一类人群制定营销策略。只有我们能更好的、更深入的(Deep understanding)理解用户的需求,我们才能更好地去做营销。

    5. 挑战

    知识图谱在工业界还没有形成大规模的应用。即便有部分企业试图往这个方向发展,但很多仍处于调研阶段。主要的原因是很多企业对知识图谱并不了解,或者理解不深。但有一点可以肯定的是,知识图谱在未来几年内必将成为工业界的热门工具,这也是从目前的趋势中很容易预测到的。当然,知识图谱毕竟是一个比较新的工具,所以在实际应用中一定会涉及到或多或少的挑战。

    数据的噪声

    首先,数据中存在着很多的噪声。即便是已经存在库里的数据,我们也不能保证它有100%的准确性。在这里主要从两个方面说起。第一,目前积累的数据本身有错误,所以这部分错误数据需要纠正。 最简单的纠正办法就是做离线的不一致性验证,这点在前面提过。第二, 数据的冗余。比如借款人张三填写公司名字为”普惠“,借款人李四填写的名字为”普惠金融“,借款人王五则填写成”普惠金融信息服务有限公司“。虽然这三个人都隶属于一家公司,但由于他们填写的名字不同,计算机则会认为他们三个是来自不同的公司。那接下来的问题是,怎么从海量的数据中找出这些存在歧义的名字并将它们合并成一个名字? 这就涉及到自然语言处理中的”消歧分析”技术。

    知识图谱和图神经网络

    非结构化数据处理能力

    在大数据时代,很多数据都是未经处理过的非结构化数据,比如文本、图片、音频、视频等。特别在互联网金融行业里,我们往往会面对大量的文本数据。怎么从这些非结构化数据里提取出有价值的信息是一件非常有挑战性的任务,这对掌握的机器学习,数据挖掘,自然语言处理能力提出了更高的门槛。

    知识图谱和图神经网络

    知识推理

    推理能力是人类智能的重要特征,使得我们可以从已有的知识中发现隐含的知识, 一般的推理往往需要一些规则的支持【3】。例如“朋友”的“朋友”,可以推理出“朋友”关系,“父亲”的“父亲”可以推理出“祖父”的关系。再比如张三的朋友很多也是李四的朋友,那我们可以推测张三和李四也很有可能是朋友关系。当然,这里会涉及到概率的问题。当信息量特别多的时候,怎么把这些信息(side information)有效地与推理算法结合在一起才是最关键的。常用的推理算法包括基于逻辑(Logic) 的推理和基于分布式表示方法(Distributed Representation)的推理。随着深度学习在人工智能领域的地位变得越来越重要,基于分布式表示方法的推理也成为目前研究的热点。如果有兴趣可以参考一下这方面目前的工作进展【4,5,6,7】。

    大数据、小样本、构建有效的生态闭环是关键

    虽然现在能获取的数据量非常庞大,我们仍然面临着小样本问题,也就是样本数量少。假设我们需要搭建一个基于机器学习的反欺诈评分系统,我们首先需要一些欺诈样本。但实际上,我们能拿到的欺诈样本数量不多,即便有几百万个贷款申请,最后被我们标记为欺诈的样本很可能也就几万个而已。这对机器学习的建模提出了更高的挑战。每一个欺诈样本我们都是以很高昂的“代价”得到的。随着时间的推移,我们必然会收集到更多的样本,但样本的增长空间还是有局限的。这有区别于传统的机器学习系统,比如图像识别,不难拿到好几十万甚至几百万的样本。

    在这种小样本条件下,构建有效的生态闭环尤其的重要。所谓的生态闭环,指的是构建有效的自反馈系统使其能够实时地反馈给我们的模型,并使得模型不断地自优化从而提升准确率。为了搭建这种自学习系统,我们不仅要完善已有的数据流系统,而且要深入到各个业务线,并对相应的流程进行优化。这也是整个反欺诈环节必要的过程,我们要知道整个过程都充满着博弈。所以我们需要不断地通过反馈信号来调整我们的策略。

    6. 结语

    知识图谱在学术界和工业界受到越来越多的关注。除了本文中所提到的应用,知识图谱还可以应用在权限管理,人力资源管理等不同的领域。在后续的文章中会详细地讲到这方面的应用。

    参考文献

    【1】De Abreu, D., Flores, A., Palma, G., Pestana, V., Pinero, J., Queipo, J., ... & Vidal, M. E. (2013). Choosing Between Graph Databases and RDF Engines for Consuming and Mining Linked Data. In COLD.

    【2】User Behavior Tutorial

    【3】刘知远 知识图谱——机器大脑中的知识库 第二章 知识图谱——机器大脑中的知识库

    【4】Nickel, M., Murphy, K., Tresp, V., & Gabrilovich, E. A Review of Relational Machine Learning for Knowledge Graphs.

    【5】Socher, R., Chen, D., Manning, C. D., & Ng, A. (2013). Reasoning with neural tensor networks for knowledge base completion. In Advances in Neural Information Processing Systems (pp. 926-934).

    【6】Bordes, A., Usunier, N., Garcia-Duran, A., Weston, J., & Yakhnenko, O. (2013). Translating embeddings for modeling multi-relational data. In Advances in Neural Information Processing Systems (pp. 2787-2795).

    【7】Jenatton, R., Roux, N. L., Bordes, A., & Obozinski, G. R. (2012). A latent factor model for highly multi-relational data. In Advances in Neural Information Processing Systems(pp. 3167-3175).

    四、《人工智能教育应用》模块一

    模块一:人工智能与教育(MOOC课程学习笔记)

    一、了解AI的发展

    1.什么是人工智能?

    人工智能(Artificial Intelligence):包括人工和智能两个方面,人工是合成的、人造的意思,智能分为思维流派,知识阈值流派,进化流派。人工智能是一门自然科学,社会科学的 交叉学科 ,综合了信息、逻辑、思维、生物、心理、计算机、电子、语言机器人等学科。基础学科是数学,指导学科是哲学。可以从狭义和广义两个角度来定义。 从狭义角度来说 ,人工智能是计算机学科的一个分支,是用计算机模拟或实现的智能,研究如何使机器具有智能(特别是人类智能如何在计算机上实现或再现)的科学与技术。 从广义角度来说 ,人工智能是研究、开发用于模拟、延伸和拓展人和其他动物的智能,以及开发各种机器智能和智能机器的理论、方法、技术及应用系统的综合性学科。

    应用:智能快递服务,智能规划出行方案,题目拍照解析

    2.人工智能的类型和流派?

    根据人工智能是否能真正实现推理、思考和解决问题,把人工智能分为 弱人工智能 和 强人工智能 。

    弱人工智能 :指不能制造出真正地推理和解决问题的智能机器,不真正拥有智能和自主意识,只专注于完成某个特定的任务。如搜索引擎、智能手机。

    强人工智能 ::指真正能思维的智能机器,有知觉和自我意识。可分为类人,非类人。

    人工智能可分为三个学派:符号主义学派(IBM深蓝的国际象棋比赛)、联结主义学派(谷歌kelipus相机)、行为主义学派(谷歌机器狗)

    3.人工智能发展阶段

    人工智能的发展阶段大致可分为形成期、发展期、繁荣期。

    形成期 (1956-1980):这一时期符号主义盛行。

    1956年人工智能这个词首次出现在达特茅斯会议上。约翰麦卡锡提出Artificial Intelligence一词,这标志着其作为一个研究领域的正式诞生。

    1958年,有两层神经网络的感知机被提出,他是当时收个可以进行机器学习的人工神经网络。

    1965年,约翰麦卡锡帮助MIT退出来世界上第一个带有视觉传感器,能识别并定位积木的机器人系统。

    1968年,美国斯坦福研究所研制的移动式机器人Shakey具备一定的人工智能:感知、环境建模、行为规划、执行任务。是世界上第一代机器人,拉开了第三代机器人研发的序幕。

    1974-1980:受数学模型、生物原型、技术条件,人工智能停滞期。

    发展期 (1980-2000):1980年,出现XCON的专家系统,能按照用户的需求,为计算机系统自动选择组件,帮助美国数字公司节约大量费用。

    1982-1986:约翰霍普菲尔德发明了Hopfield网络,是一种结合了存储系统和二元系统的神经网络,可以让计算机以一种全新的方式处理信息。

    1986年:BP反向传播算法催生了联结主义的发展。

    1987-2000:再一次进入低谷期。

    繁荣期 (2000-):1997年:IBM深蓝

    2006年:辛顿提出深度学习神经网络打破BP发展瓶颈。

    2011年:沃森作为选手参加《危险边缘》取胜。

    2012年:卷积神经网络,谷歌自动驾驶汽车

    2013年:深度学习算法识别率高达99%

    2016年:AlphaGo

    2017年:AlphaGo Zero、索菲亚

    二、AI的关键技术

    4.什么是机器学习?

    机器学习是一门涉及统计学、系统辨识、逼近理论、神经网络、优化理论、计算机科学、脑科学的交叉学科。研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能。核心是重新组织已有的知识结构使之不断改善自身的性能。

    5.机器学习的分类?

    (1)根据 学习方法 可分为 传统机器学习 和 深度学习

    传统机器学习 :从一些观测样本出发,试图发现不能通过原理分析获得的规律,实现对未来数据行为或趋势的准确预测。主要特点是平衡了学习结果的有效性和学习模型的可解释性,为解决有限样本的学习问题提供了一种框架。主要用于有限样本学习下的,模式分类、回归分析、概率密度估计。应用:自然语言处理、语音识别、图像识别、信息检索、生物信息。

    深度学习 :是建立深层结构模型的学习方法。特点是多层神经网络。形成了卷积神经网络(用于空间性分布数据)和循环神经网络两类模型(用于时间性分布数据)。

    区别:案例分析:狗和猫等动物的识别。

    传统机器学习需要先定义相应的面目特征,如有没有胡须、耳朵、鼻子、嘴巴的模样等,以此来进行对象的分类识别。深度学习则会自动找出这个分类问题所需要的重要特征,并进行对象识别。

    (2)根据 学习模式 可分为 监督学习 、 无监督学习 、 强化学习

    监督学习 :利用已标记的有限训练数据集,通过某种学习策略建立一个模型,实现对新数据的分类。特点是要求训练样本的分类标签已知。特点是不需要训练样本和人工标注数据。

    无监督学习 :利用无标记的有限数据描述隐藏在未标记数据中的结构或规律。

    强化学习 :也称增强学习,他是智能系统从环境到行为映射的学习,以使强化信号函数值最大。特点是没有监督者,只有一个反馈信息,反馈是延迟的,不是立即生成的。

    (3)根据 算法特点 可分为 迁移学习 、 主动学习 、 演化学习

    迁移学习 :当在某些领域无法取得足够多的数据进行模型训练时,利用另一领域数据获得的关系进行的学习。

    主动学习: 通过一定的算法查询最有用的未标记样本,并交由专家进行标记,然后用查询到的样本训练分类模型来提高模型的精度。

    演化学习: 对优化问题性质要求极少,只需能够评估解的好坏即可,适用于求解复杂的优化问题,也可直接用于多目标优化。演化算法包括粒子群优化算法、多目标优化算法。

    6.什么是大数据?

    大数据 是指包含搜集、保存、管理、分析在内的动态的 数据集合 。特征是规模性、高速性、多样性、价值性、真实性

    在教育中的应用:教育数据挖掘和学习分析

    教育数据挖掘 是对学习行为和过程进行量化、分析和建模,利用统计学、机器学习和数据挖掘等方法来分析 教与学过程中所产生的所有数据。

    学习分析技术 是对学习者及其学习环境的数据测量、收集和分析,从而理解和 优化学习过程以及学习环境 。

    7.什么是知识图谱?

    知识图谱是一个将现实世界映射到数据世界,由节点和边组成的语义网络。其中节点代表物理世界的实体或概念,边代表实体的属性和他们之间的关系。现实世界存在各种各样的关系,知识图谱就是合理摆放他们之间的关系。本质上是一种语义网络,旨在描述客观世界中的概念、实体、事件及其之间的关系。

    从领域上来看可分为:通用知识图谱和特定领域知识图谱。

    应用:语义搜索、智能问答、可视化决策支持

    教育领域的应用:在智能教学系统中,利用知识图谱技术挖掘与答案相关的知识点,为学习者提供更合适的导学建议。

    7.什么是自然语言处理(Natural Language Process,nlp)?

    自然语言处理是计算机科学、人工智能、语言学关注计算机和人类自然语言之间的相互作用的领域,研究能实现人与计算机之间用自然语言进行有效通信 的各种理论和方法。

    8.自然语言的处理过程?

    包括自然语言理解和自然语言生成两个部分。

    9.自然语言处理的研究领域?

    研究领域十分广泛,如:机器翻译、语义理解、问答系统。文本分析(自动作文评价系统)、推荐系统

    10.自然语言处理面临的四大挑战?

    词法、句法、语义、语用和语音等不同层面存在不确定性;

    新的词汇、术语、语义和语法导致未知语音现象的不可预测性;

    数据资源的不充分使其难以覆盖复杂的语音现象;

    语义知识的模糊性和错综复杂的关联性难以用简单的数学模型描述。

    11.机器人技术

    第一代机器人是程序控制机器人,它们能够按照拟定程序进行重复工作;

    第二代机器人是自适应机器人,自身配备相应的感觉传感器,能随环境的变化而改变自己的行为,但还没有达到完全自治的程度;

    第三代机器人是智能机器人,它们带有多种传感器,能对感知到的信息进行处理,控制自己的行为,具有很强的自适应能力、学习能力和自治功能。

    智能控制方法:专家控制、模糊控制、神经网络控制、专家递阶控制

    12.什么是跨媒体智能?

    跨媒体:文本、图像、语音、视频及其交互属性将会紧密混合在一起。

    跨媒体智能是实现机器认知外部世界的基础智能。(潘云鹤)

    13.跨媒体智能的关键技术?

    跨媒体智能检索、跨媒体分析推理、跨媒体知识图谱构建、跨媒体智能存储

    14.跨媒体智能的应用?

    智能城市、医学、教育领域(可穿戴技术、脑机接口。多模态的角度)

    15.智能时代的教育挑战?

    挑战一:如何培养具有AI素养的时代人才?

    挑战二:教育管理者如何重构工作流程?

    挑战三:教师如何应对人工智能带来的冲击?

    挑战四:教师如何应用人工智能转变教学方式?

    挑战五:学生如何运用人工智能技术转变学习行为和方式?

    挑战六:智能时代课程内容如何改造升级?

    挑战七:如何应对人工智能教育中的伦理、社会及安全问题?

    17.AI教育应用的内涵与特征?

    智能教育:狭义的人工智能教育:以人工智能为内容的教育,目的是培养掌握机器智能技术的专业化人才,以满足技术发展的需要。广义的智能教育:智能技术支持的教育、学习智能技术的教育、促进智能发展的教育。

    智慧教育:是在信息技术的支持下,为发展学生智慧能力而开展的教育,他强调构建技术融合的学习环境,使教师能够高效率的教学、使学生能够个性化学习。

    智能教育是技术使能的教育。智能技术不但让学习环境更丰富、灵巧,也让机器在某些方面具有类人甚至超人的智能。

    智慧教育则是智慧教育理念引领的,先进的智慧教育理念决定了智慧教学法的模态,不同的模态需要教师具备相应的教学技能,这些技能需要智能环境的支持才能得以实施。

    18.人工智能在教育中的应用的特征?

    智能化

    人工智能技术是促变教育信息化的核心技术,具备转变教与学方式的潜能。未来在教育领域将会有越来越多支持教与学的智能工具。智能教育将会给学习者带来新的学习体验,为教师实施高质量的教学提供基础。在教育信息技术支持下打造出教育信息生态系统,将在线学习环境与现实情境无缝融合,使人机交互更加便捷智能,泛在学习、个性化学习将成为一种新常态。

    人机协同

    人机协同教育可以发挥教师与人工智能的不同优势,促进学生的个性化发展。机器主要负责重复性、单调性、递归性的工作,教师负责创造性、情感性、启发性的工作。

    教学自动化

    人工智能可直接应用学科知识、教学法知识、学习者知识,实现知识传播的自动化,因此可用于支持教育活动

    个性化

    为了扩大教学规模、提高教学效率,传统的教学组织采用班级授课制,类似于工厂批量化生产,忽视了学生之间的个性化差异。人工智能时代的到来时教学组织方式趋向个性化教育成为可能。人工智能可分析每位学生的过程性学习数据,精准鉴别其知识水平、学习需求、个人爱好,并构建学习者模型,据此实现个性化资源、学习路径、学习服务的推送。这意味着批量化生产教育时代的终结,个性化教育的开始。

    跨学科融合

    人工智能涉及多个学科领域,单一的学科教学已无法满足社会发展的需求,跨学科融合教学受到推崇。为了适应学生个性化发展,未来的教育更应该培养学生多元的综合性发展。以人工智能为核心,提供真实问题情境的项目实践,侧重激发、培养和提高学生的计算思维、创新思维和元认知。

    以上就是关于知识图谱和图神经网络相关问题的回答。希望能帮到你,如有更多相关问题,您也可以联系我们的客服进行咨询,客服也会为您讲解更多精彩的知识和内容。


    推荐阅读:

    自学logo设计需要学什么(自学logo设计需要学什么知识)

    包装设计相关知识(包装设计相关知识点)

    设计游戏需要什么知识(设计游戏需要什么知识和技能)

    设计公司资质(设计公司资质申请)

    杭州览众服饰有限公司(杭州览众服饰有限公司招聘)