词袋模型的通俗介绍

更新于 2017年10月16日 机器学习
我来说两句
wx:   网页版 2017-10-16 04:40
算法 资源 自然语言处理 Charles Dickens 课程 神经网络 书籍
「词袋模型的通俗介绍」所谓的词袋(Bag-of-words)模型是一种用机器学习算法对文本进行建模时表示文本数据的方法。 在本教程中,你将了解到自然语言处理中的特征抽取方法。完成本教程后,你将知道:1.什么是词袋(Bag-of-words)模型,以及为什么需要用它来表示文本。2.如何为一组文档开发一个词袋(Bag-of-word)模型。3.如何使用不同的技术准备词汇和单词。 教程概述本教程分为6部分; 它们是:1.€文本问题。2.什么是词袋(Bag-of-Words)?3.€Bag-of-Words模型的例子。4.管理词汇(managing vocabulary)。5.得分词(scoring words)6.词袋(Bag-of-Words)的局限。 1、文本问题机器学习这样的技术比较喜欢被定义好的固定长度的输入和输出,因此不固定输入输出是文本建模的一个问题。机器学习算法不能直接处理原始文本,文本必须转换成数字。具体来说,是数字的向量。 “在语言处理中,向量x是由文本数据派生而来的,以反映文本的各种语言属性。”在自然语言处理中神经网络方法,2017年。这被称为特征提取或特征编码。这是一种流行的、简单的文本数据提取方法被称为文本的词汇模型。 2、什么是词袋(Bag-of-Words)?一个简单的词袋模型(BOW),是一种使用机器学习算法。从文本中提取特征的方法。该方法非常简单和灵活,可以用于从文档中提取各种功能的各种方法。词袋(Bag-of-words)是描述文档中单词出现的文本的一种表示形式。它涉及两件方面: 1.已知词汇的集合。2.测试已知单词的存在。 因为文档中单词是以没有逻辑的顺序的放置,所以称为单词的“袋子”。该模型只关注文档中是否出现已知的单词,并不关注文档中的出现的单词。“bag-of-words方法(BOW)是句子和文件的一个非常常见的特征提取程序。在这种方法中,我们查看文本中单词的直方图,也就是将每个单词计数作为一个特性。”- 自然语言处理中的神经网络方法,2017。 词袋(bag-of-words)可以像你喜欢的那样简单或复杂。其复杂性在于决定如何设计已知单词(或令牌)的词汇量以及如何统计已知单词的存在。接下来我们将仔细研究这两个问题。 3、词袋(Bag-of-Words)模型的例子让我们用一个有效的例子来制作一个词袋(bag-of-words)模型。步骤1:收集数据以下是Gutenberg项目中Charles Dickens的《双城记》一书中的前几行文字。“It was the best of times,it was the worst of times,it was the age of wisdom,it was the age of foolishness,”对于这个小示例,我们将每一行视为一个单独的“文档”,将4行视为整个文档。步骤2:设计词汇现在我们可以列出我们的模型词汇表中的所有单词:•    “it”•    “was”•    “the”•    “best”•    “of”•    “times”•    “worst”•    “age”•    “wisdom”•    “foolishness”这是一个由包括24个词组成的语料库中其中包含10个词汇。 步骤3:创建文档向量下一步是在每个文档中记录单词。目的是将自由文本的每个文档转换为一个文本向量,这样我们就可以将其用作机器学习模型的输入或输出。 因为我们知道词汇有10,所以我们可以使用固定长度为10的文档,来表示向量中的每一个单词的位置。 最简单的设计方法是将单词的存在标记为布尔值,0表示缺席,1表示存在。使用我们的词汇表中列出的任意顺序排列,我们可以通过第一个文档(“It was the best of times”),并将其转换为二进制向量。 转自:云栖社区 via: http://mp.weixin.qq.com/s?__biz=MzA4NDEyMzc2Mw==&mid=2649678234&idx=4&sn=8a8e18ad82d102f134057bdf47ba4309&scene=0#wechat_redirect

 

回复