mantch的博客
  •  分类
  •  标签
  •  归档
  •  近期文章
  •  文章归档
  •  汇总&资源
  •  我的友链
  •  主题文档
  •  关于小站

【NLP】8.命名实体识别

mantch

2020-02-12

NLP

字数统计:

2.2k字

阅读时长≈

8分


识别出句子中命名实体的边界与类别的任务称为命名实体识别。由于上述难点,命名实体识别也是一个统计为主、规则为辅的任务。对于规则性较强的命名实体,比如网址、E-mail、IBSN、商品编号等,完全可以通过正则表达式处理,未匹配上的片段交给统计模型处理。

阅读全文

【NLP】7.词性标注

mantch

2020-02-11

NLP

字数统计:

2.4k字

阅读时长≈

8分


在语言学上,词性(Par-Of-Speech, Pos )指的是单词的语法分类,也称为词类。同一个类别的词语具有相似的语法性质,所有词性的集合称为词性标注集。不同的语料库采用了不同的词性标注集,一般都含有形容词、动词、名词等常见词性。

阅读全文

【NLP】6.条件随机场与序列标注

mantch

2020-02-10

NLP

字数统计:

2.6k字

阅读时长≈

9分


本章介绍一种新的序列标注模型条件随机场。这种模型与感知机同属结构化学习大家族,但性能比感知机还要强大。为了厘清该模型的来龙去脉,我们先对机器学习模型做番柿理。然后结合代码介绍条件随机场理论,探究它与结构化感知机的异同。

阅读全文

【NLP】5.感知机分类与序列标注

mantch

2020-02-09

NLP

字数统计:

3.5k字

阅读时长≈

13分


本章将深人讲解感知机算法的原理,以及在分类和序列标注上的应用。在序列标注应用部分,我们将实现基于感知机的中文分词器。由于感知机序列标注基于分类,并且分类问题更简单,所以我们先学习分类问题。

阅读全文

【NLP】4.隐马尔可夫模型与序列标注

mantch

2020-02-08

NLP

字数统计:

5.5k字

阅读时长≈

20分


将每个汉字组词时所处的位置(首尾等)作为标签,则中文分词就转化为给定汉字序列找出标签序列的问题。一般而言,由字构词是序列标注模型的一种应用。 在所有“序列标注”模型中,隐马尔可夫模型是最基础的一种。

阅读全文

【NLP】3.二元语法与中文分词

mantch

2020-02-05

NLP

字数统计:

2.9k字

阅读时长≈

10分


我们人类确知道第二种更加合理,只因为我们从小到大接触的都是第二种分词,出现的次数多,所以我们判定第二种是正确地选择。这就是利用了统计自然语言处理。统计自然语言处理的核心话题之一,就是如何利用统计手法对语言建模,这一章讲的就是二元语法的统计语言模型。

阅读全文

【NLP】2.词典分词

mantch

2020-02-04

NLP

字数统计:

2.7k字

阅读时长≈

10分


中文分词:指的是将一段文本拆分为一系列单词的过程,这些单词顺序拼接后等于原文本。中文分词算法大致分为基于词典规则与基于机器学习这两大派。

阅读全文

【NLP】1.新手上路

mantch

2020-02-03

NLP

字数统计:

3k字

阅读时长≈

10分


自然语言处理(Natural Language Processing,NLP)是一门融合了计算机科学、人工智能及语言学的交叉学科,它们的关系如下图所示。这门学科研究的是如何通过机器学习等技术,让计算机学会处理人类语言,乃至实现终极目标–理解人类语言或人工智能。

阅读全文

【NLP】智能客服

mantch

2019-09-30

NLP

字数统计:

5.8k字

阅读时长≈

19分


我们就会产生一个想法:能不能有一个机器人来回答这些重复的问题,它能 24 小时的工作不用休息,降低客户成本,还能挖掘聊天记录里面的一些有价值的知识点。这就是智能客服产生的背景。

阅读全文

 上一页 

2 / 6

 下一页 

mantch的博客

  AI-Area

微信公众号(最新文章分享),请关注!

  站内导航
  • 近期文章
  • 文章归档
  • 汇总&资源
  • 我的友链
  • 主题文档
  • 关于小站
  文章分类
  • Model Log
    (1)
  • NLP
    (25)
  • 《剑指offer》
    (3)
  • 推荐系统
    (1)
  • 机器学习
    (15)
  • 深度学习
    (8)

桂ICP备19007055号-1



博客内容遵循 署名-非商业性使用-相同方式共享 4.0 国际 (CC BY-NC-SA 4.0) 协议

本站使用 Material X 作为主题 , 总访问量为 次 。