读书人

NLP-自然语言处理简介

发布时间: 2013-10-31 12:03:52 作者: rapoo

NLP--自然语言处理简介

整理一下学习自然语言处理的笔记,第一课是简介.


自然语言处理的几个常见运用


1. 信息提取

如下面的这段话:

Hi Dan, we’ve now scheduled the curriculummeeting.

It will be in Gates 159 tomorrow from10:00-11:30.

-Chris

我们通过自然语言处理能够得出如下信息:

NLP-自然语言处理简介

2. 语义分析

比如淘宝某个商品的评价,我们能够提取信息,并且根据语义来进行测评.

比如对于一个照相机

NLP-自然语言处理简介

提取出如下的主要特征:

zoom ,affordability, size and weight, flash ,ease of use

我们根据语义分析,搜集到关于大小和重量的如下三个评价:

a.拿起来很好很舒适

b.好轻的照相机,我再也不用拿着又大又笨的机器到处跑了.

c.这个照相机太娇嫩了,拿在手上必须非常小心.

再进一步的,通过NLP,我们可以得出前两个是好的评价,最后一个是不好的.

通过这些,我们对于这款相机有了基于NLP的测评指标,如下:


NLP-自然语言处理简介

3. 自动翻译.

这个不用解释了,百度翻译等等就是实例.

当前NLP发展研究的现状

很好解决了的问题:

1. 语言检测,判断某句话,某个词是什么语言.

如"spring"是英语,"春天"是中文.

2. 词性判定

动词,副词,形容词,主,谓,宾,等等.

3. 主题识别

时间,地点,任务等.

已经有了很好的效果:

1. 语义识别

如判断一句话是褒义还是贬义,是吐槽还是赞

2. 代词判断

如语言中的"他","它"指的是什么.

3. 二义性分析

像英语中的mouse有鼠标,老鼠两个意思.NLP要通过上下文判断具体是什么意思.

4. 解析语句

比如这句话:我能够通过这扇窗看到海.

NLP的任务是解析这句话的主谓宾,并得到其意思.

5. 自动翻译

6. 信息提取

就是一开始举的例子.提取出邮件的主要信息.

探索阶段问题:

1. 问答系统

2. 语义的总结归纳

如这样三句话:

沪深指数增长.

房价上涨

人民币增值

总结:经济很好.

3. 对话

类似于iphone的siri,人机对话.


为什么自然语言处理不容易?

1. 非标准话的语言

如火星语,省略句,语病等

2. 谚语,习语,地方性语言,新词.

3. 深层次的语言:

如:我和我的小伙伴们…

4. 专业语言:

如:KL距离,PCA

常用的解决方法.

运用机器学习,数据挖掘,统计学等等的方法来学习


接下来几篇blog继续NLP的讨论.

读书人网 >其他相关

热点推荐