自然语言处理(NLP)是指机器理解并解释人类写作、说话方式的能力。
NLP的目标是让计算机/机器在理解语言上像人类一样智能。最终目标是弥补人类交流(自然语言)和计算机理解(机器语言)之间的差距。
自然语言处理
下面是三个不同等级的语言学分析:
句法学:给定文本的哪部分是语法正确的。
语义学:给定文本的含义是什么?
语用学:文本的目的是什么?
NLP处理语言的不同方面,例如:
音韵学:指代语言中发音的系统化组织。
词态学:研究单词构成以及相互之间的关系。
NLP中理解语义分析的方法:
分布式:它利用机器学习和深度学习的大规模统计策略。
框架式:句法不同,但语义相同的句子在数据结构(帧)中被表示为程式化情景。
理论式:这种方法基于的思路是,句子指代的真正的词结合句子的部分内容可表达全部含义。
交互式(学习):它涉及到语用方法,在交互式学习环境中用户教计算机一步一步学习语言。
有了NLP,有可能完成自动语音、自动文本编写这样的任务。
由于大型数据(文本)的存在,我们为什么不使用计算机的能力,不知疲倦地运行算法来完成这样的任务,花费的时间也更少。
这些任务包括NLP的其他应用,比如自动摘要(生成给定文本的总结)和机器翻译。
NLP流程
如果要用语音产生文本,需要完成文本转语音任务
NLP的机制涉及两个流程:
自然语言理解
自然语言生成
自然语言理解(NLU)
NLU是要理解给定文本的含义。文本内每个单词的特性与结构需要被理解。在理解结构上,NLU要理解自然语言中的以下几个歧义性:
词法歧义性:单词有多重含义
句法歧义性:语句有多重解析树
语义歧义性:句子有多重含义
回指歧义性(AnaphoricAmbiguity):之前提到的短语或单词在后面句子中有不同的含义。
接下来,通过使用词汇和语法规则,理解每个单词的含义。
然而,有些词有类似的含义(同义词),有些词有多重含义(多义词)。
自然语言生成(NLG)
NLG是从结构化数据中以可读地方式自动生成文本的过程。自然语言生成的问题是难以处理。
自然语言生成可被分为三个阶段:
1、文本规划:完成结构化数据中基础内容的规划。
2、语句规划:从结构化数据中组合语句,来表达信息流。
3、实现:产生语法通顺的语句来表达文本。
NLP与文本挖掘(或文本分析)之间的不同
自然语言处理是理解给定文本的含义与结构的流程。
文本挖掘或文本分析是通过模式识别提起文本数据中隐藏的信息的流程。
自然语言处理被用来理解给定文本数据的含义(语义),而文本挖掘被用来理解给定文本数据的结构(句法)。
自然语言处理
例如,在“I found my wallet near the bank”一句中,NLP的任务是理解句尾“bank”一词指代的是银行还是河边。
如今所有数据中的80%都可被用到,大数据来自于大公司、企业所存储的信息。例如,职员信息、公司采购、销售记录、经济业务以及公司、社交媒体的历史记录等。
尽管人类使用的语言对计算机而言是模糊的、非结构化的,但有了NLP的帮助,我们可以解析这些大型的非结构化数据中的模式,从而更好地理解里面包含的信息。
NLP可使用大数据解决商业中的难题,比如零售、医疗、金融领域中的业务。
转载自网络 不用于商业宣传 版权归原作者所有,侵权删。