自然语言处理的若干问题
一、语言模型(一)N元语言模型(二)语言模型性能评价(三)数据平滑(四)语言模型自适应方法
(二)语言模型性能评价(三)数据平滑(四)语言模型自适应方法
(四)语言模型自适应方法
?
二、汉语自动分词和词性标注(一)基本分词方法(二)未登陆词处理方法(三)基于多特征的命名实体模型(四)词性标注(五)词性标注的一致性检查和自动校对三、句法分析(一)统计句法分析以及句法分析的检查(二)层次化汉语长句结构分析(三)浅层句法分析(四)依据句法理论与依存句法分析四、语义消歧(一)有监督的语义消歧(二)基于词典的语义消歧(三)无监督的语义消歧(四)语义消歧系统评测五、文本分类(一)文本表示(二)文本?特征选择方法(三)特征权重计算方法(四)分类器设计(五)文本分类器性能评估方法六、自动文摘和信息抽取(一)多文档摘要(二)单文档摘要(三)信息抽取七、文档聚类(一)聚类算法(二)聚类结果评估八、自然语言处理的主要范畴
(二)未登陆词处理方法(三)基于多特征的命名实体模型(四)词性标注(五)词性标注的一致性检查和自动校对三、句法分析(一)统计句法分析以及句法分析的检查(二)层次化汉语长句结构分析(三)浅层句法分析(四)依据句法理论与依存句法分析四、语义消歧(一)有监督的语义消歧(二)基于词典的语义消歧(三)无监督的语义消歧(四)语义消歧系统评测五、文本分类(一)文本表示(二)文本?特征选择方法(三)特征权重计算方法(四)分类器设计(五)文本分类器性能评估方法六、自动文摘和信息抽取(一)多文档摘要(二)单文档摘要(三)信息抽取七、文档聚类(一)聚类算法(二)聚类结果评估八、自然语言处理的主要范畴
(四)词性标注(五)词性标注的一致性检查和自动校对三、句法分析(一)统计句法分析以及句法分析的检查(二)层次化汉语长句结构分析(三)浅层句法分析(四)依据句法理论与依存句法分析四、语义消歧(一)有监督的语义消歧(二)基于词典的语义消歧(三)无监督的语义消歧(四)语义消歧系统评测五、文本分类(一)文本表示(二)文本?特征选择方法(三)特征权重计算方法(四)分类器设计(五)文本分类器性能评估方法六、自动文摘和信息抽取(一)多文档摘要(二)单文档摘要(三)信息抽取七、文档聚类(一)聚类算法(二)聚类结果评估八、自然语言处理的主要范畴
三、句法分析(一)统计句法分析以及句法分析的检查(二)层次化汉语长句结构分析(三)浅层句法分析(四)依据句法理论与依存句法分析四、语义消歧(一)有监督的语义消歧(二)基于词典的语义消歧(三)无监督的语义消歧(四)语义消歧系统评测五、文本分类(一)文本表示(二)文本?特征选择方法(三)特征权重计算方法(四)分类器设计(五)文本分类器性能评估方法六、自动文摘和信息抽取(一)多文档摘要(二)单文档摘要(三)信息抽取七、文档聚类(一)聚类算法(二)聚类结果评估八、自然语言处理的主要范畴
(二)层次化汉语长句结构分析(三)浅层句法分析(四)依据句法理论与依存句法分析四、语义消歧(一)有监督的语义消歧(二)基于词典的语义消歧(三)无监督的语义消歧(四)语义消歧系统评测五、文本分类(一)文本表示(二)文本?特征选择方法(三)特征权重计算方法(四)分类器设计(五)文本分类器性能评估方法六、自动文摘和信息抽取(一)多文档摘要(二)单文档摘要(三)信息抽取七、文档聚类(一)聚类算法(二)聚类结果评估八、自然语言处理的主要范畴
(四)依据句法理论与依存句法分析四、语义消歧(一)有监督的语义消歧(二)基于词典的语义消歧(三)无监督的语义消歧(四)语义消歧系统评测五、文本分类(一)文本表示(二)文本?特征选择方法(三)特征权重计算方法(四)分类器设计(五)文本分类器性能评估方法六、自动文摘和信息抽取(一)多文档摘要(二)单文档摘要(三)信息抽取七、文档聚类(一)聚类算法(二)聚类结果评估八、自然语言处理的主要范畴
(一)有监督的语义消歧(二)基于词典的语义消歧(三)无监督的语义消歧(四)语义消歧系统评测五、文本分类(一)文本表示(二)文本?特征选择方法(三)特征权重计算方法(四)分类器设计(五)文本分类器性能评估方法六、自动文摘和信息抽取(一)多文档摘要(二)单文档摘要(三)信息抽取七、文档聚类(一)聚类算法(二)聚类结果评估八、自然语言处理的主要范畴
(三)无监督的语义消歧(四)语义消歧系统评测五、文本分类(一)文本表示(二)文本?特征选择方法(三)特征权重计算方法(四)分类器设计(五)文本分类器性能评估方法六、自动文摘和信息抽取(一)多文档摘要(二)单文档摘要(三)信息抽取七、文档聚类(一)聚类算法(二)聚类结果评估八、自然语言处理的主要范畴
五、文本分类(一)文本表示(二)文本?特征选择方法(三)特征权重计算方法(四)分类器设计(五)文本分类器性能评估方法六、自动文摘和信息抽取(一)多文档摘要(二)单文档摘要(三)信息抽取七、文档聚类(一)聚类算法(二)聚类结果评估八、自然语言处理的主要范畴
(二)文本?特征选择方法(三)特征权重计算方法(四)分类器设计(五)文本分类器性能评估方法六、自动文摘和信息抽取(一)多文档摘要(二)单文档摘要(三)信息抽取七、文档聚类(一)聚类算法(二)聚类结果评估八、自然语言处理的主要范畴
(四)分类器设计(五)文本分类器性能评估方法六、自动文摘和信息抽取(一)多文档摘要(二)单文档摘要(三)信息抽取七、文档聚类(一)聚类算法(二)聚类结果评估八、自然语言处理的主要范畴
六、自动文摘和信息抽取(一)多文档摘要(二)单文档摘要(三)信息抽取七、文档聚类(一)聚类算法(二)聚类结果评估八、自然语言处理的主要范畴
(二)单文档摘要(三)信息抽取七、文档聚类(一)聚类算法(二)聚类结果评估八、自然语言处理的主要范畴
七、文档聚类(一)聚类算法(二)聚类结果评估八、自然语言处理的主要范畴
(二)聚类结果评估八、自然语言处理的主要范畴
1.文本朗读(Text?to?speech)/语音合成(Speech?synthesis)
2.语音识别(Speech?recognition)
3.中文自动分词(Chinese?word?segmentation)
4.词性标注(Part-of-speech?tagging)
5.句法分析(Parsing)
6.自然语言生成(Natural?language?generation)
7.文本分类(Text?categorization)
8.信息检索(Information?retrieval)
9.信息抽取(Information?extraction)
10.文字校对(Text-proofing)
11.问答系统(Question?answering)
12.机器翻译(Machine?translation)
13.自动摘要(Automatic?summarization)
14.文字蕴涵(Textual?entailment)
九、自然语言处理研究的难点
1.?单词的边界界定
在口语中,词与词之间通常是连贯的,而界定字词边界通常使用的办法是取用能让给定的上下文最为通顺且在文法上无误的一种最佳组合。在书写上,汉语也没有词与词之间的边界。
2.词义的消歧
许多字词不单只有一个意思,因而我们必须选出使句意最为通顺的解释。
3.句法的模糊性
自然语言的文法通常是模棱两可的,针对一个句子通常可能会剖析(Parse)出多棵剖析树(Parse?Tree),而我们必须要仰赖语意及前后文的资讯才能在其中选择一棵最为适合的剖析树。
4.有瑕疵的或不规范的输入
例如语音处理时遇到外国口音或地方口音,或者在文本的处理中处理拼写,语法或者光学字符识别(OCR)的错误。
5.语言行为与计划
句子常常并不只是字面上的意思;例如,“你能把盐递过来吗”,一个好的回答应当是把盐递过去;在大多数上下文环境中,“能”将是糟糕的回答,虽说?回答“不”或者“太远了我拿不到”也是可以接受的。再者,如果一门课程去年没开设,对于提问“这门课程去年有多少学生没通过?”回答“去年没开这门课”要?比回答“没人没通过”好。
<!--EndFragment-->