在朴素贝叶斯算法中,为了对文本进行分类,需要将文本转换为数字表示形式。这个过程通常称为“特征提取”或“特征工程”。在文本分类中,可以采用词袋模型,将每个文档表示为一个向量,每个向量元素表示文档中某个单词的出现次数、词频或者TF-IDF值(词语在文档中出现的次数与词语在整个语料库中出现的频率的比值)。例如,如果我们有3个文档:“This is a cat”, “That is a dog”, “This is a pig”,我们可以把这些文档中的每个词当做一个特征,那么我们得到的特征集合为:“this”, “is”, “a”, “cat”, “that”, “dog”, “pig”。然后根据每个文档中这些特征的出现情况,构建出向量表示,比如,“This is a cat” 对应的向量表示为 [1, 1, 1, 1, 0, 0, 0], “That is a dog” 对应的向量表示为 [0, 1, 1, 0, 1, 1, 0],而 “This is a pig” 对应的向量表示为 [1, 1, 1, 0, 0, 0, 1]。这样,我们就可以把文本转换成数字了,然后通过朴素贝叶斯等算法进行分类操作。