广西壮族自治区信息中心 - http://gxxxzx.gxzf.gov.cn/
当前位置:首页 > 决策咨询研究

自然语言处理的七个典型应用技术

2022-11-04 10:30     来源:大数据研究课题组
分享 微信
头条
微博 空间 qq
【字体: 打印

一、机器翻译

机器翻译是指通过特定的计算机程序将一种书写形式或声音形式的自然语言,翻译成另一种书写形式或声音形式的自然语言。机器翻译一般通过以下三种方法实现:一是基于理性的研究方法—基于规则的方法;二是基于经验的研究方法—基于统计的方法;三是与深度学习相结合。

此外,机器翻译的应用场景主要分为五类:(1)语音翻译—亚马逊的Alexa、苹果的Siri、微软的Cortana等、语音同传技术的应用;(2)图像翻译—谷歌等公司拥有能够让用户搜索或者自动整理没有识别标签的照片的技术;(3)医疗创业公司利用计算机阅览X光照片、MRI和CT照片;(4)对机器人、无人机以及无人驾驶汽车的改进至关重要;(5)VR翻译等。

二、信息检索

信息检索即从相关文档集合中查找用户所需信息的过程。信息检索的工作原理分别为:

•“存”:对信息进行收集、标引、描述、组织,进行有序的存放;

•“取”:按照某种查询机制从有序存放的信息集合(数据库)中找出用户所需信息或获取其线索;

•检索成功:将用户输入的检索关键词与数据库中的标引词进行对比,二者匹配成功时检索成功;

•检索结果按照与提问词的关联度输出,供用户选择,用户采用“关键词查询+选择性浏览”的交互方式获取信息。

三、情感分析

情感分析是指通过计算机技术对文本的主客观性、观点、情绪、极性的挖掘和分析,对文本的情感倾向做出分类判断。这项技术主要有以下应用场景:评论机制的App中应用较为广泛;互联网舆情分析中情感分析起着举足轻重的作用;选举预测、股票预测等领域。

四、自动问答

自动问答即利用计算机自动回答用户所提出的问题以满足用户知识需求的任务。其工作流程首先要正确理解用户所提出的问题,其次是抽取其中关键的信息,在已有的语料库或者知识库中进行检索、匹配,最后是将获取的答案反馈给用户。此外,自动问答技术应用有以下三类:

检索式问答:通过检索和匹配回答问题,推理能力较弱;

知识库问答:web2.0的产物,用户生成内容是其基础,Yahoo!Answer、百度知道等是典型代表;

社区问答:正在逐步实现知识的深层逻辑推理。

五、自动文摘

自动文摘是指运用计算机技术,依据用户需求从源文本中提取最重要的信息内容,进行精简、提炼和总结,最后生成一个精简版本。该项应用技术具备压缩性、内容完整性以及可读性等特点,且存在两种技术路线:

•基于统计的机械式文摘:简单容易实现,是目前主要被采用的方法,但是结果不尽如人意;

•基于意义的理解式文摘:建立在对自然语言的理解的基础之上的,接近于人提取摘要的方法,难度较大。

六、社会计算

社会计算的定义为在互联网的环境下,以现代信息技术为手段,以社会科学理论为指导,帮助人们分析社会关系,挖掘社会知识,协助社会沟通,研究社会规律,破解社会难题。社会计算的主要应用场景为:

•金融市场采用社会计算方法探索金融风险和危机的动态规律;

•社会安全:把握舆情、引导舆论;

•军事方面:许多国家加大投入力度扶持军事信息化的发展。

七、信息抽取

信息抽取是指从文本中抽取出特定的事实信息。这些被抽取出来的信息通常以结构化的形式直接存入数据库,可以供用户查询及进一步分析使用,为之后构建知识库、智能问答等提供数据支撑。其工作原理是利用自然语言处理的技术,包括命名实体识别、句法分析、篇章分析与推理以及知识库等,对文本进行深入理解和分析完成信息抽取工作。

信息抽取技术对于构建大规模的知识库有着重要的意义,但是目前由于自然语言本身的复杂性、歧义性等特征,而且信息抽取目标知识规模巨大、复杂多样等问题,使得信息抽取技术还不是很完善。

(来源:《自然语言处理研究报告》)


文件下载:

关联文件: