HOME 首页
SERVICE 服务产品
XINMEITI 新媒体代运营
CASE 服务案例
NEWS 热点资讯
ABOUT 关于我们
CONTACT 联系我们
创意岭
让品牌有温度、有情感
专注品牌策划15年

    人工智能与机器翻译(人工智能与机器翻译PDF)

    发布时间:2023-03-19 12:48:25     稿源: 创意岭    阅读: 91        问大家

    大家好!今天让创意岭的小编来大家介绍下关于人工智能与机器翻译的问题,以下是小编对此问题的归纳整理,让我们一起来看看吧。

    开始之前先推荐一个非常厉害的Ai人工智能工具,一键生成原创文章、方案、文案、工作计划、工作报告、论文、代码、作文、做题和对话答疑等等

    只需要输入关键词,就能返回你想要的内容,越精准,写出的就越详细,有微信小程序端、在线网页版、PC客户端

    官网:https://ai.de1919.com

    本文目录:

    人工智能与机器翻译(人工智能与机器翻译PDF)

    一、1, 什么是人工智能

    人工智能(计算机科学的一个分支)

    人工智能(Artificial Intelligence),英文缩写为AI。它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。 人工智能是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器,该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。人工智能是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。人工智能从诞生以来,理论和技术日益成熟,应用领域也不断扩大,但没有一个统一的定义。

    人工智能是对人的意识、思维的信息过程的模拟。人工智能不是人的智能,但能像人那样思考、也可能超过人的智能。但是这种会自我思考的高级人工智能还需要科学理论和工程上的突破。

    人工智能是一门极富挑战性的科学,从事这项工作的人必须懂得计算机知识,心理学和哲学。人工智能是包括十分广泛的科学,它由不同的领域组成,如机器学习,计算机视觉等等,总的说来,人工智能研究的一个主要目标是使机器能够胜任一些通常需要人类智能才能完成的复杂工作。但不同的时代、不同的人对这种“复杂工作”的理解是不同的。

    工智能的定义可以分为两部分,即“人工”和“智能”。“人工”比较好理解,争议性也不大。有时我们会要考虑什么是人力所能及制造的,或者人自身的智能程度有没有高到可以创造人工智能的地步,等等。但总的来说,“人工系统”就是通常意义下的人工系统。

    关于什么是“智能”,就问题多多了。这涉及到其它诸如意识(CONSCIOUSNESS)、自我(SELF)、思维(MIND)(包括无意识的思维(UNCONSCIOUS_MIND)等等问题。人唯一了解的智能是人本身的智能,这是普遍认同的观点。但是我们对我们自身智能的理解都非常有限,对构成人的智能的必要元素也了解有限,所以就很难定义什么是“人工”制造的“智能”了。因此人工智能的研究往往涉及对人的智能本身的研究。其它关于动物或其它人造系统的智能也普遍被认为是人工智能相关的研究课题。

    人工智能在计算机领域内,得到了愈加广泛的重视。并在机器人,经济政治决策,控制系统,仿真系统中得到应用。

    人工智能机器人

    著名的美国斯坦福大学人工智能研究中心尼尔逊教授对人工智能下了这样一个定义:“人工智能是关于知识的学科――怎样表示知识以及怎样获得知识并使用知识的科学。”而另一个美国麻省理工学院的温斯顿教授认为:“人工智能就是研究如何使计算机去做过去只有人才能做的智能工作。”这些说法反映了人工智能学科的基本思想和基本内容。即人工智能是研究人类智能活动的规律,构造具有一定智能的人工系统,研究如何让计算机去完成以往需要人的智力才能胜任的工作,也就是研究如何应用计算机的软硬件来模拟人类某些智能行为的基本理论、方法和技术。

    人工智能是计算机学科的一个分支,二十世纪七十年代以来被称为世界三大尖端技术之一(空间技术、能源技术、人工智能)。也被认为是二十一世纪(基因工程、纳米科学、人工智能)三大尖端技术之一。这是因为近三十年来它获得了迅速的发展,在很多学科领域都获得了广泛应用,并取得了丰硕的成果,人工智能已逐步成为一个独立的分支,无论在理论和实践上都已自成一个系统。

    人工智能是研究使计算机来模拟人的某些思维过程和智能行为(如学习、推理、思考、规划等)的学科,主要包括计算机实现智能的原理、制造类似于人脑智能的计算机,使计算机能实现更高层次的应用。人工智能将涉及到计算机科学、心理学、哲学和语言学等学科。可以说几乎是自然科学和社会科学的所有学科,其范围已远远超出了计算机科学的范畴,人工智能与思维科学的关系是实践和理论的关系,人工智能是处于思维科学的技术应用层次,是它的一个应用分支。从思维观点看,人工智能不仅限于逻辑思维,要考虑形象思维、灵感思维才能促进人工智能的突破性的发展,数学常被认为是多种学科的基础科学,数学也进入语言、思维领域,人工智能学科也必须借用数学工具,数学不仅在标准逻辑、模糊数学等范围发挥作用,数学进入人工智能学科,它们将互相促进而更快地发展。

    2研究价值编辑

    具有人工智能的机器人

    例如繁重的科学和工程计算本来是要人脑来承担的,如今计算机不但能完成这种计算,而且能够比人脑做得更快、更准确,因此当代人已不再把这种计算看作是“需要人类智能才能完成的复杂任务”,可见复杂工作的定义是随着时代的发展和技术的进步而变化的,人工智能这门科学的具体目标也自然随着时代的变化而发展。它一方面不断获得新的进展,另一方面又转向更有意义、更加困难的目标。

    通常,“机器学习”的数学基础是“统计学”、“信息论”和“控制论”。还包括其他非数学学科。这类“机器学习”对“经验”的依赖性很强。计算机需要不断从解决一类问题的经验中获取知识,学习策略,在遇到类似的问题时,运用经验知识解决问题并积累新的经验,就像普通人一样。我们可以将这样的学习方式称之为“连续型学习”。但人类除了会从经验中学习之外,还会创造,即“跳跃型学习”。这在某些情形下被称为“灵感”或“顿悟”。一直以来,计算机最难学会的就是“顿悟”。或者再严格一些来说,计算机在学习和“实践”方面难以学会“不依赖于量变的质变”,很难从一种“质”直接到另一种“质”,或者从一个“概念”直接到另一个“概念”。正因为如此,这里的“实践”并非同人类一样的实践。人类的实践过程同时包括经验和创造。[1]

    这是智能化研究者梦寐以求的东西。

    2013年,帝金数据普数中心数据研究员S.C WANG开发了一种新的数据分析方法,该方法导出了研究函数性质的新方法。作者发现,新数据分析方法给计算机学会“创造”提供了一种方法。本质上,这种方法为人的“创造力”的模式化提供了一种相当有效的途径。这种途径是数学赋予的,是普通人无法拥有但计算机可以拥有的“能力”。从此,计算机不仅精于算,还会因精于算而精于创造。计算机学家们应该斩钉截铁地剥夺“精于创造”的计算机过于全面的操作能力,否则计算机真的有一天会“反捕”人类。[1]

    当回头审视新方法的推演过程和数学的时候,作者拓展了对思维和数学的认识。数学简洁,清晰,可靠性、模式化强。在数学的发展史上,处处闪耀着数学大师们创造力的光辉。这些创造力以各种数学定理或结论的方式呈现出来,而数学定理最大的特点就是:建立在一些基本的概念和公理上,以模式化的语言方式表达出来的包含丰富信息的逻辑结构。应该说,数学是最单纯、最直白地反映着(至少一类)创造力模式的学科。[1]

    3科学介绍编辑

    实际应用

    机器视觉:机器视觉,指纹识别,人脸识别,视网膜识别,虹膜识别,掌纹识别,专家系统,自动规划,智能搜索,定理证明,博弈,自动程序设计,智能控制,机器人学,语言和图像理解,遗传编程等。

    学科范畴

    人工智能是一门边沿学科,属于自然科学和社会科学的交叉。

    涉及学科

    哲学和认知科学,数学,神经生理学,心理学,计算机科学,信息论,控制论,不定性论

    研究范畴

    自然语言处理,知识表现,智能搜索,推理,规划,机器学习,知识获取,组合调度问题,感知问题,模式识别,逻辑程序设计软计算,不精确和不确定的管理,人工生命,神经网络,复杂系统,遗传算法

    意识和人工智能

    人工智能就其本质而言,是对人的思维的信息过程的模拟。

    对于人的思维模拟可以从两条道路进行,一是结构模拟,仿照人脑的结构机制,制造出“类人脑”的机器;二是功能模拟,暂时撇开人脑的内部结构,而从其功能过程进行模拟。现代电子计算机的产生便是对人脑思维功能的模拟,是对人脑思维的信息过程的模拟。

    弱人工智能如今不断地迅猛发展,尤其是2008年经济危机后,美日欧希望借机器人等实现再工业化,工业机器人以比以往任何时候更快的速度发展,更加带动了弱人工智能和相关领域产业的不断突破,很多必须用人来做的工作如今已经能用机器人实现。

    而强人工智能则暂时处于瓶颈,还需要科学家们和人类的努力。

    4发展阶段编辑

    1956年夏季,以麦卡赛、明斯基、罗切斯特和申农等为首的一批有远见卓识的年轻科学家在一起聚会,共同研究和探讨用机器模拟智能的一系列有关问题,并首次提出了“人工智能”这一术语,它标志着“人工智能”这门新兴学科的正式诞生。IBM公司“深蓝”电脑击败了人类的世界国际象棋冠军更是人工智能技术的一个完美表现。

    从1956年正式提出人工智能学科算起,50多年来,取得长足的发展,成为一门广泛的交叉和前沿科学。总的说来,人工智能的目的就是让计算机这台机器能够像人一样思考。如果希望做出一台能够思考的机器,那就必须知道什么是思考,更进一步讲就是什么是智慧。什么样的机器才是智慧的呢?科学家已经作出了汽车,火车,飞机,收音机等等,它们模仿我们身体器官的功能,但是能不能模仿人类大脑的功能呢?到目前为止,我们也仅仅知道这个装在我们天灵盖里面的东西是由数十亿个神经细胞组成的器官,我们对这个东西知之甚少,模仿它或许是天下最困难的事情了。

    当计算机出现后,人类开始真正有了一个可以模拟人类思维的工具,在以后的岁月中,无数科学家为这个目标努力着。如今人工智能已经不再是几个科学家的专利了,全世界几乎所有大学的计算机系都有人在研究这门学科,学习计算机的大学生也必须学习这样一门课程,在大家不懈的努力下,如今计算机似乎已经变得十分聪明了。例如,1997年5月,IBM公司研制的深蓝(DEEP BLUE)计算机战胜了国际象棋大师卡斯帕洛夫(KASPAROV)。大家或许不会注意到,在一些地方计算机帮助人进行其它原来只属于人类的工作,计算机以它的高速和准确为人类发挥着它的作用。人工智能始终是计算机科学的前沿学科,计算机编程语言和其它计算机软件都因为有了人工智能的进展而得以存在。

    5技术研究编辑

    用来研究人工智能的主要物质基础以及能够实现人工智能技术平台的机器就是计算机,人工智能的发展历史是和计算机科学技术的发展史联系在一起的。除了计算机科学以外,人工智能还涉及信息论、控制论、自动化、仿生学、生物学、心理学、数理逻辑、语言学、医学和哲学等多门学科。人工智能学科研究的主要内容包括:知识表示、自动推理和搜索方法、机器学习和知识获取、知识处理系统、自然语言理解、计算机视觉、智能机器人、自动程序设计等方面。

    人工智能技术研究 ARTIFICIAL INTELLIGENCE AND ROBOTICS RESEARCH 是一本关注人工智能与机器人研究领域最新进展的国际中文期刊,由汉斯出版社发行,本刊支持思想创新、学术创新,倡导科学,繁荣学术,集学术性、思想性为一体,旨在为了给世界范围内的科学家、学者、科研人员提供一个传播、分享和讨论人工智能与机器人研究领域内不同方向问题与发展的交流平台。

    研究领域

    人工智能技术研究

    智能机器人

    模式识别与智能系统

    虚拟现实技术与应用

    系统仿真技术与应用

    工业过程建模与智能控制

    智能计算与机器博弈

    人工智能理论

    语音识别与合成

    机器翻译

    图像处理与计算机视觉

    计算机感知

    计算机神经网络

    知识发现与机器学习

    建筑智能化技术与应用

    人工智能其他学科

    研究方法

    如今没有统一的原理或范式指导人工智能研究。许多问题上研究者都存在争论。其中几个长久以来仍没有结论的问题是:是否应从心理或神经方面模拟人工智能?或者像鸟类生物学对于航空工程一样,人类生物学对于人工智能研究是没有关系的?智能行为能否用简单的原则(如逻辑或优化)来描述?还是必须解决大量完全无关的问题?

    智能是否可以使用高级符号表达,如词和想法?还是需要“子符号”的处理?JOHN HAUGELAND提出了GOFAI(出色的老式人工智能)的概念,也提议人工智能应归类为SYNTHETIC INTELLIGENCE,[29]这个概念后来被某些非GOFAI研究者采纳。

    大脑模拟

    主条目:控制论和计算神经科学

    20世纪40年代到50年代,许多研究者探索神经病学,信息理论及控制论之间的联系。其中还造出一些使用电子网络构造的初步智能,如W. GREY WALTER的TURTLES和JOHNS HOPKINS BEAST。 这些研究者还经常在普林斯顿大学和英国的RATIO CLUB举行技术协会会议.直到1960, 大部分人已经放弃这个方法,尽管在80年代再次提出这些原理。

    符号处理

    主条目:GOFAI

    当20世纪50年代,数字计算机研制成功,研究者开始探索人类智能是否能简化成符号处理。研究主要集中在卡内基梅隆大学, 斯坦福大学和麻省理工学院,而各自有独立的研究风格。JOHN HAUGELAND称这些方法为GOFAI(出色的老式人工智能)。[33] 60年代,符号方法在小型证明程序上模拟高级思考有很大的成就。基于控制论或神经网络的方法则置于次要。[34] 60~70年代的研究者确信符号方法最终可以成功创造强人工智能的机器,同时这也是他们的目标。

    认知模拟经济学家赫伯特·西蒙和艾伦·纽厄尔研究人类问题解决能力和尝试将其形式化,同时他们为人工智能的基本原理打下基础,如认知科学, 运筹学和经营科学。他们的研究团队使用心理学实验的结果开发模拟人类解决问题方法的程序。这方法一直在卡内基梅隆大学沿袭下来,并在80年代于SOAR发展到高峰。基于逻辑不像艾伦·纽厄尔和赫伯特·西蒙,JOHN MCCARTHY认为机器不需要模拟人类的思想,而应尝试找到抽象推理和解决问题的本质,不管人们是否使用同样的算法。他在斯坦福大学的实验室致力于使用形式化逻辑解决多种问题,包括知识表示, 智能规划和机器学习. 致力于逻辑方法的还有爱丁堡大学,而促成欧洲的其他地方开发编程语言PROLOG和逻辑编程科学.“反逻辑”斯坦福大学的研究者 (如马文·闵斯基和西摩尔·派普特)发现要解决计算机视觉和自然语言处理的困难问题,需要专门的方案-他们主张不存在简单和通用原理(如逻辑)能够达到所有的智能行为。ROGER SCHANK 描述他们的“反逻辑”方法为 "SCRUFFY" .常识知识库 (如DOUG LENAT的CYC)就是"SCRUFFY"AI的例子,因为他们必须人工一次编写一个复杂的概念。基于知识大约在1970年出现大容量内存计算机,研究者分别以三个方法开始把知识构造成应用软件。这场“知识革命”促成专家系统的开发与计划,这是第一个成功的人工智能软件形式。“知识革命”同时让人们意识到许多简单的人工智能软件可能需要大量的知识。

    子符号法

    80年代符号人工智能停滞不前,很多人认为符号系统永远不可能模仿人类所有的认知过程,特别是感知,机器人,机器学习和模式识别。很多研究者开始关注子符号方法解决特定的人工智能问题。

    自下而上, 接口AGENT,嵌入环境(机器人),行为主义,新式AI机器人领域相关的研究者,如RODNEY BROOKS,否定符号人工智能而专注于机器人移动和求生等基本的工程问题。他们的工作再次关注早期控制论研究者的观点,同时提出了在人工智能中使用控制理论。这与认知科学领域中的表征感知论点是一致的:更高的智能需要个体的表征(如移动,感知和形象)。计算智能80年代中DAVID RUMELHART 等再次提出神经网络和联结主义. 这和其他的子符号方法,如模糊控制和进化计算,都属于计算智能学科研究范畴。

    统计学法

    90年代,人工智能研究发展出复杂的数学工具来解决特定的分支问题。这些工具是真正的科学方法,即这些方法的结果是可测量的和可验证的,同时也是人工智能成功的原因。共用的数学语言也允许已有学科的合作(如数学,经济或运筹学)。STUART J. RUSSELL和PETER NORVIG指出这些进步不亚于“革命”和“NEATS的成功”。有人批评这些技术太专注于特定的问题,而没有考虑长远的强人工智能目标。

    集成方法

    智能AGENT范式智能AGENT是一个会感知环境并作出行动以达致目标的系统。最简单的智能AGENT是那些可以解决特定问题的程序。更复杂的AGENT包括人类和人类组织(如公司)。这些范式可以让研究者研究单独的问题和找出有用且可验证的方案,而不需考虑单一的方法。一个解决特定问题的AGENT可以使用任何可行的方法-一些AGENT用符号方法和逻辑方法,一些则是子符号神经网络或其他新的方法。范式同时也给研究者提供一个与其他领域沟通的共同语言--如决策论和经济学(也使用ABSTRACT AGENTS的概念)。90年代智能AGENT范式被广泛接受。AGENT体系结构和认知体系结构研究者设计出一些系统来处理多ANGENT系统中智能AGENT之间的相互作用。一个系统中包含符号和子符号部分的系统称为混合智能系统 ,而对这种系统的研究则是人工智能系统集成。分级控制系统则给反应级别的子符号AI 和最高级别的传统符号AI提供桥梁,同时放宽了规划和世界建模的时间。RODNEY BROOKS的SUBSUMPTION ARCHITECTURE就是一个早期的分级系统计划。

    智能模拟

    机器视、听、触、感觉及思维方式的模拟:指纹识别,人脸识别,视网膜识别,虹膜识别,掌纹识别,专家系统,智能搜索,定理证明,逻辑推理,博弈,信息感应与辨证处理。

    学科范畴

    人工智能是一门边沿学科,属于自然科学、社会科学、技术科学三向交叉学科。

    涉及学科

    哲学和认知科学,数学,神经生理学,心理学,计算机科学,信息论,控制论,不定性论,仿生学,社会结构学与科学发展观。

    研究范畴

    语言的学习与处理,知识表现,智能搜索,推理,规划,机器学习,知识获取,组合调度问题,感知问题,模式识别,逻辑程序设计,软计算,不精确和不确定的管理,人工生命,神经网络,复杂系统,遗传算法人类思维方式,最关键的难题还是机器的自主创造性思维能力的塑造与提升。

    应用领域

    机器翻译,智能控制,专家系统,机器人学,语言和图像理解,遗传编程机器人工厂,自动程序设计,航天应用,庞大的信息处理,储存与管理,执行化合生命体无法执行的或复杂或规模庞大的任务等等。

    值得一提的是,机器翻译是人工智能的重要分支和最先应用领域。不过就已有的机译成就来看,机译系统的译文质量离终极目标仍相差甚远;而机译质量是机译系统成败的关键。中国数学家、语言学家周海中教授曾在论文《机器翻译五十年》中指出:要提高机译的质量,首先要解决的是语言本身问题而不是程序设计问题;单靠若干程序来做机译系统,肯定是无法提高机译质量的;另外在人类尚未明了大脑是如何进行语言的模糊识别和逻辑判断的情况下,机译要想达到“信、达、雅”的程度是不可能的。

    安全问题

    人工智能还在研究中,但有学者认为让计算机拥有智商是很危险的,它可能会反抗人类。这种隐患也在多部电影中发生过,其主要的关键是允不允许机器拥有自主意识的产生与延续,如果使机器拥有自主意识,则意味着机器具有与人同等或类似的创造性,自我保护意识,情感和自发行为。

    实现方法

    人工智能在计算机上实现时有2种不同的方式。一种是采用传统的编程技术,使系统呈现智能的效果,而不考虑所用方法是否与人或动物机体所用的方法相同。这种方法叫工程学方法(ENGINEERING APPROACH),它已在一些领域内作出了成果,如文字识别、电脑下棋等。另一种是模拟法(MODELING APPROACH),它不仅要看效果,还要求实现方法也和人类或生物机体所用的方法相同或相类似。遗传算法(GENERIC ALGORITHM,简称GA)和人工神经网络(ARTIFICIAL NEURAL NETWORK,简称ANN)均属后一类型。遗传算法模拟人类或生物的遗传-进化机制,人工神经网络则是模拟人类或动物大脑中神经细胞的活动方式。为了得到相同智能效果,两种方式通常都可使用。采用前一种方法,需要人工详细规定程序逻辑,如果游戏简单,还是方便的。如果游戏复杂,角色数量和活动空间增加,相应的逻辑就会很复杂(按指数式增长),人工编程就非常繁琐,容易出错。而一旦出错,就必须修改原程序,重新编译、调试,最后为用户提供一个新的版本或提供一个新补丁,非常麻烦。采用后一种方法时,编程者要为每一角色设计一个智能系统(一个模块)来进行控制,这个智能系统(模块)开始什么也不懂,就像初生婴儿那样,但它能够学习,能渐渐地适应环境,应付各种复杂情况。这种系统开始也常犯错误,但它能吸取教训,下一次运行时就可能改正,至少不会永远错下去,用不到发布新版本或打补丁。利用这种方法来实现人工智能,要求编程者具有生物学的思考方法,入门难度大一点。但一旦入了门,就可得到广泛应用。由于这种方法编程时无须对角色的活动规律做详细规定,应用于复杂问题,通常会比前一种方法更省力。

    二、为什么我们仍然需要人工翻译

    人工智能与机器翻译(人工智能与机器翻译PDF)

    1995年,马云应好友相邀去了一趟美国,回来之后他决定做互联网。彼时的国人,对于互联网尚无概念,他邀请了24个朋友在家里给大家讲了两个小时,结果没人能听懂他在说什么,同一时间在地球的另一端,一个叫比尔·盖茨的人因为个人PC业务的持续增加,正被越来越多的人所熟知。于是马云做出了大胆的预测:互联网将改变人类生活的方方面面。12年后,在2007年4月的微软亚洲政府领导人论坛上,盖茨告诉全世界,互联网正在改变人们的生活。盖茨或许并不知道,关于互联网的影响力,一个自信满满的中国人多年前已作出判言。

    在互联网的世界里,不再有山脉、海洋、国界的物理阻隔,人跟人之间的交流的唯一障碍只剩下文化和语言。通过互联网你可以在一小时、30分钟、10分钟之内知道全国乃至全世界发生的事情,通过互联网你可以足不出户点餐、购物、娱乐甚至工作,互联网改变的不仅仅是生活习惯,消费习惯、娱乐方式,真真切切的改变了人类生活的方方面面。

    很多人可能会问,人工翻译跟互联网有啥关系,净说写没用的,这里就要引出我们下一个主角“人工智能”,得益于互联网的普及,全球数十亿人在互联网上购物、娱乐,产生了海量的用户数据,这些数据让过去发展陷入瓶颈的机器学习重新焕发出新的生命力,通过不断优化机器学习的算法,海量数据交由计算机处理学习,如果打个比方的话,数据和算法之于计算机好比阅历和智商之于人类,丰富的阅历所获得的智慧不是小聪明所能比拟的,AlphaGo与自己对弈了数千万局才达到如今的棋力,而和它对阵的李世石和柯洁,终其一生不吃不喝的去对弈,所能达到的数目也不及电脑的百分之一。

    机器翻译的概念提出甚至早于人工智能,语言作为人与人之间沟通的唯一障碍,无数仁人志士倾其一生都在研究如何打破这道枷锁,互联网、人工智能的出现为翻译提供了新的契机,谷歌利用了业内最强的硬件配置和集群计算环境,整合了近几年神经网络机器翻译的成果,做出了自己的神经机器翻译系统—Google翻译,目前谷歌翻译可提供103中语言之间的即时翻译。中国的互联网巨头们,得益于中国海量的人口基数,诞生出海量的可供机器学习的语言数据,包括华为、百度、科大讯飞、搜狗等都推出了自己的人工智能翻译软件。

    虽然近几年机器翻译取得了长足的进步,但是作为人类智慧结晶的“语言”,其复杂程度不仅仅是是词、字的直接转化,更涉及语句背后人类复杂的语境语义问题,这样复杂的转化不是短时间可以实现的。比如在简单的技术文档上,一些机器翻译软件可以快速而准确的翻译,但是如果涉及到具有一定文学性、或需要专业背景的材料,机器翻译就显得捉襟见肘,翻译出的文件不仅词不达意甚至可以说漏洞百出。

    随着互联网的普及、接踵而至的大数据、人工智能、5G,人类社会正迎来一次新的技术革命,我们每个人都在经历着“百年未有之大变局”,人工翻译公司在可以预见的未来还会存在较长的时间,机器翻译不会完全取代人工,未来的世界是人与机器共存的时代,机器翻译软件将会以工具的方式,帮助我们译员来实现更高效率的翻译工作。

    三、人工智能与机器翻译 和 自然语言处理 哪个方向更火

    一、课程介绍

    斯坦福大学于2012年3月在Coursera启动了在线自然语言处理课程,由NLP领域大牛Dan Jurafsky 和 Chirs Manning教授授课:

    https://class.coursera.org/nlp/

    以下是本课程的学习笔记,以课程PPT/PDF为主,其他参考资料为辅,融入个人拓展、注解,抛砖引玉,欢迎大家在“我爱公开课”上一起探讨学习。

    课件汇总下载地址:斯坦福大学自然语言处理公开课课件汇总

    二、语言模型(Language Model)

    1)N-gram介绍

    在实际应用中,我们经常需要解决这样一类问题:如何计算一个句子的概率?如:

    机器翻译:P(high winds tonite) > P(large winds tonite)

    拼写纠错:P(about fifteen minutes from) > P(about fifteenminuets from)

    语音识别:P(I saw a van) >> P(eyes awe of an)

    音字转换:P(你现在干什么|nixianzaiganshenme) > P(你西安在干什么|nixianzaiganshenme)

    自动文摘、问答系统、... ...

    以上问题的形式化表示如下:

    p(S)=p(w1,w2,w3,w4,w5,…,wn)

    =p(w1)p(w2|w1)p(w3|w1,w2)...p(wn|w1,w2,...,wn-1)//链规则

    p(S)被称为语言模型,即用来计算一个句子概率的模型。

    那么,如何计算p(wi|w1,w2,...,wi-1)呢?最简单、直接的方法是直接计数做除法,如下:

    p(wi|w1,w2,...,wi-1) = p(w1,w2,...,wi-1,wi) / p(w1,w2,...,wi-1)

    但是,这里面临两个重要的问题:数据稀疏严重;参数空间过大,无法实用。

    基于马尔科夫假设(Markov Assumption):下一个词的出现仅依赖于它前面的一个或几个词。

    假设下一个词的出现依赖它前面的一个词,则有:

    p(S)=p(w1)p(w2|w1)p(w3|w1,w2)...p(wn|w1,w2,...,wn-1)

    =p(w1)p(w2|w1)p(w3|w2)...p(wn|wn-1) // bigram

    假设下一个词的出现依赖它前面的两个词,则有:

    p(S)=p(w1)p(w2|w1)p(w3|w1,w2)...p(wn|w1,w2,...,wn-1)

    =p(w1)p(w2|w1)p(w3|w1,w2)...p(wn|wn-1,wn-2) // trigram

    那么,我们在面临实际问题时,如何选择依赖词的个数,即n。

    更大的n:对下一个词出现的约束信息更多,具有更大的辨别力;

    更小的n:在训练语料库中出现的次数更多,具有更可靠的统计信息,具有更高的可靠性。

    理论上,n越大越好,经验上,trigram用的最多,尽管如此,原则上,能用bigram解决,绝不使用trigram。

    2)构造语言模型

    通常,通过计算最大似然估计(Maximum Likelihood Estimate)构造语言模型,这是对训练数据的最佳估计,公式如下:

    p(w1|wi-1) = count(wi1-, wi) / count(wi-1)

    如给定句子集“<s> I am Sam </s>

    <s> Sam I am </s>

    <s> I do not like green eggs and ham </s>”

    部分bigram语言模型如下所示:

    c(wi)如下:

    c(wi-1,wi)如下:

    则bigram为:

    那么,句子“<s> I want english food </s>”的概率为:

    p(<s> I want english food </s>)=p(I|<s>)

    × P(want|I)

    × P(english|want)

    × P(food|english)

    × P(</s>|food)

    = .000031

    为了避免数据溢出、提高性能,通常会使用取log后使用加法运算替代乘法运算。

    log(p1*p2*p3*p4) = log(p1) + log(p2) + log(p3) + log(p4)

    推荐开源语言模型工具:

    SRILM(http://www.speech.sri.com/projects/srilm/)

    IRSTLM(http://hlt.fbk.eu/en/irstlm)

    MITLM(http://code.google.com/p/mitlm/)

    BerkeleyLM(http://code.google.com/p/berkeleylm/)

    推荐开源n-gram数据集:

    Google Web1T5-gram(http://googleresearch.blogspot.com/2006/08/all-our-n-gram-are-belong-to-you.html)

    Total number of tokens: 1,306,807,412,486

    Total number of sentences: 150,727,365,731

    Total number of unigrams: 95,998,281

    Total number of bigrams: 646,439,858

    Total number of trigrams: 1,312,972,925

    Total number of fourgrams: 1,396,154,236

    Total number of fivegrams: 1,149,361,413

    Total number of n-grams: 4,600,926,713

    Google Book N-grams(http://books.google.com/ngrams/)

    Chinese Web 5-gram(http://www.ldc.upenn.edu/Catalog/catalogEntry.jsp?catalogId=LDC2010T06)

    3)语言模型评价

    语言模型构造完成后,如何确定好坏呢? 目前主要有两种评价方法:

    实用方法:通过查看该模型在实际应用(如拼写检查、机器翻译)中的表现来评价,优点是直观、实用,缺点是缺乏针对性、不够客观;

    理论方法:迷惑度/困惑度/混乱度(preplexity),其基本思想是给测试集赋予较高概率值的语言模型较好,公式如下:

    由公式可知,迷惑度越小,句子概率越大,语言模型越好。使用《华尔街日报》训练数据规模为38million words构造n-gram语言模型,测试集规模为1.5million words,迷惑度如下表所示:

    4)数据稀疏与平滑技术

    大规模数据统计方法与有限的训练语料之间必然产生数据稀疏问题,导致零概率问题,符合经典的zip'f定律。如IBM, Brown:366M英语语料训练trigram,在测试语料中,有14.7%的trigram和2.2%的bigram在训练语料中未出现。

    数据稀疏问题定义:“The problem of data sparseness, also known as the zero-frequency problem arises when analyses contain configurations that never occurred in the training corpus. Then it is not possible to estimate probabilities from observed frequencies, and some other estimation scheme that can generalize (that configurations) from the training data has to be used. —— Dagan”。

    人们为理论模型实用化而进行了众多尝试与努力,诞生了一系列经典的平滑技术,它们的基本思想是“降低已出现n-gram条件概率分布,以使未出现的n-gram条件概率分布非零”,且经数据平滑后一定保证概率和为1,详细如下:

    Add-one(Laplace) Smoothing

    加一平滑法,又称拉普拉斯定律,其保证每个n-gram在训练语料中至少出现1次,以bigram为例,公式如下:

    其中,V是所有bigram的个数。

    承接上一节给的例子,经Add-one Smoothing后,c(wi-1, wi)如下所示:

    则bigram为:

    在V >> c(wi-1)时,即训练语料库中绝大部分n-gram未出现的情况(一般都是如此),Add-one Smoothing后有些“喧宾夺主”的现象,效果不佳。那么,可以对该方法扩展以缓解此问题,如Lidstone's Law,Jeffreys-Perks Law。

    Good-Turing Smoothing

    其基本思想是利用频率的类别信息对频率进行平滑。调整出现频率为c的n-gram频率为c*:

    但是,当nr+1或者nr > nr+1时,使得模型质量变差,如下图所示:

    直接的改进策略就是“对出现次数超过某个阈值的gram,不进行平滑,阈值一般取8~10”,其他方法请参见“Simple Good-Turing”。

    Interpolation Smoothing

    不管是Add-one,还是Good Turing平滑技术,对于未出现的n-gram都一视同仁,难免存在不合理(事件发生概率存在差别),所以这里再介绍一种线性插值平滑技术,其基本思想是将高阶模型和低阶模型作线性组合,利用低元n-gram模型对高元n-gram模型进行线性插值。因为在没有足够的数据对高元n-gram模型进行概率估计时,低元n-gram模型通常可以提供有用的信息。公式如下:

    扩展方式(上下文相关)为:

    λs可以通过EM算法来估计,具体步骤如下:

    首先,确定三种数据:Training data、Held-out data和Test data;

    然后,根据Training data构造初始的语言模型,并确定初始的λs(如均为1);

    最后,基于EM算法迭代地优化λs,使得Held-out data概率(如下式)最大化。

    Kneser-Ney Smoothing

    Web-scale LMs

    如Google N-gram语料库,压缩文件大小为27.9G,解压后1T左右,面对如此庞大的语料资源,使用前一般需要先剪枝(Pruning)处理,缩小规模,如仅使用出现频率大于threshold的n-gram,过滤高阶的n-gram(如仅使用n<=3的资源),基于熵值剪枝,等等。

    另外,在存储优化方面也需要做一些优化,如使用trie数据结构存储,借助bloom filter辅助查询,把string映射为int类型处理(基于huffman编码、Varint等方法),float/double转成int类型(如概率值精确到小数点后6位,然后乘10E6,即可将浮点数转为整数)。

    2007年Google Inc.的Brants et al.提出了针对大规模n-gram的平滑技术——“Stupid Backoff”,公式如下:

    数据平滑技术是构造高鲁棒性语言模型的重要手段,且数据平滑的效果与训练语料库的规模有关。训练语料库规模越小,数据平滑的效果越显著;训练语料库规模越大,数据平滑的效果越不显著,甚至可以忽略不计——锦上添花。

    5)语言模型变种

    Class-based N-gram Model

    该方法基于词类建立语言模型,以缓解数据稀疏问题,且可以方便融合部分语法信息。

    Topic-based N-gram Model

    该方法将训练集按主题划分成多个子集,并对每个子集分别建立N-gram语言模型,以解决语言模型的主题自适应问题。架构如下:

    Cache-based N-gram Model

    该方法利用cache缓存前一时刻的信息,以用于计算当前时刻概率,以解决语言模型动态自适应问题。

    -People tends to use words as few as possible in the article.

    -If a word has been used, it would possibly be used again in the future.

    架构如下:

    猜测这是目前QQ、搜狗、谷歌等智能拼音输入法所采用策略,即针对用户个性化输入日志建立基于cache的语言模型,用于对通用语言模型输出结果的调权,实现输入法的个性化、智能化。由于动态自适应模块的引入,产品越用越智能,越用越好用,越用越上瘾。

    Skipping N-gram Model&Trigger-based N-gram Model

    二者核心思想都是刻画远距离约束关系。

    指数语言模型:最大熵模型MaxEnt、最大熵马尔科夫模型MEMM、条件随机域模型CRF

    传统的n-gram语言模型,只是考虑了词形方面的特征,而没有词性以及语义层面上的知识,并且数据稀疏问题严重,经典的平滑技术也都是从统计学角度解决,未考虑语法、语义等语言学作用。

    MaxEnt、MEMM、CRF可以更好的融入多种知识源,刻画语言序列特点,较好的用于解决序列标注问题。

    四、如何搜索人工智能或者机器翻译的内容

    1、首先打开浏览器进入搜索栏。

    2、其次在搜索栏中搜索人工智能或者机器翻译的内容。

    3、最后点击搜索进入找到人工智能的选项即可。

    以上就是关于人工智能与机器翻译相关问题的回答。希望能帮到你,如有更多相关问题,您也可以联系我们的客服进行咨询,客服也会为您讲解更多精彩的知识和内容。


    推荐阅读:

    微信电话客服24小时人工服务

    人工智能交叉研究方向(人工智能交叉研究方向是什么)

    人工智能会取代程序员吗(人工智能会取代程序员吗)

    剪辑视频教程(零基础学剪辑视频教程)

    南昌大专单招学校(南昌大专单招学校有幼师专业的)