首页 - 外教口语 > cnn英文垃圾邮件分类 卷积池化全连接

cnn英文垃圾邮件分类 卷积池化全连接

发布于:2021-07-19 作者:jason 阅读:665

cnn英文垃圾邮件分类 卷积池化全连接

在这里,我们显示了6封电子邮件,我们可以看到每封电子邮件都由回车和换行符分隔。我们也将在后面用这个特性来划分每个样本。

我们知道,在CNN文本分类中,每个词对应的词向量被堆叠起来,形成一个二维矩阵,用于卷积和汇集。但是如果我们这里没有单词向量呢?既然没有词向量,干脆不要把它作为参数,让它在训练中产生。具体方法是

(1)根据所有邮件中的单词,选择k或所有出现频率最高的单词。在本例中,它们都用于生成长度为

随机初始化一个大小为[,]的单词向量矩阵,表示你用多少维向量来表示一个单词

(3)对于每封邮件,找出字典中每个单词对应的索引,然后根据索引从单词向量矩阵中取出对应位置的单词向量栈,形成表示邮件的二维矩阵

(4)为所有邮件设置一个最大长度,即最多编多少字,截取的用0填充。

例如

一封邮件的内容是,如果这三个词在字典中对应的索引是6,2,3,邮件的最大长度是7,那么我们首先得到这封邮件中对应词的索引顺序是56,28,97,0,0,0,0。同时初始化的字向量矩阵是

[[]0[]1[]2[]3[0.3970.8280.2440.4390.5980.2980.5050.630.883]4[0.4020.0840.4190.660.690.0310.3540.1170.494] 5[0.9660.0160.2180.7320.5230.2630.7490.8130.547]6[0.0650.7390.3940.0770.4610.2030.2460.4560.809]]7

那么对应于tomorrowissunny电子邮件的矩阵是

[[0.9660.0160.2180.7320.5230.2630.7490.8130.547]6[0.3290.6180.1890.5440.760.7020.0090.8110.882]2[0.9120.0420.7770.7650.7080.8870.9440.2720.5] 3[0.3980.4180.290.3440.8980.5550.0330.0560.923]0[0.3980.4180.290.3440.8980.5550.0330.0560.923]0[0.3980.4180.290.3440.8980.5550.0330.0560.923]0[0.3980.4180.290.3440.8980.5550.0330.0560.923]]0

同时,这也对应着一个样本。有人可能会问,初始化的词向量不能代表每个词。这样构造的矩阵能代表一封邮件吗?对于这个问题,我们可以从两个角度来看。刚开始可能不正确,但是因为我们这里有监督学习,只要不正确,最终就会产生错误。算法可以根据误差修正这个误差。经过多次迭代,自然是正确的。第二,虽然这个词向量矩阵是随机生成的,可能是错的,但确实是,邮件的所有表达都是根据这个错误的矩阵形成的,从某种意义上来说是正确的。我们之所以认为它是错的,是因为我们找不到一种测量方式来表明它是对的。咳嗽跑题了.

2预处理

有了以上的总体思路,我们将对下面的邮件进行仔细的预处理。

2.1构建数据集

一次将所有消息读入一个字符串,然后按“

作为分离器分离,并去除每个样品前后的空间。

正打开(正数据文件,Rb)。读取()。decode (utf-8) #,一个字符串加上decode (utf-8)负开(negative _ data _ file,Rb)。读取()。解码(utf-8)正例,因为它包含中文

)[:-1]#把整篇文章分成一封邮件否定_例子否定。拆分(

)[:-1]#获得一个列表,列表中的每个元素,列出一封电子邮件,最后一个换行符被删除。[:-1]的意思是删除最后一个元素positive _ examples[s . strip()]for sinpositive _ examples]#并删除每封邮件开头和结尾的空白负_ examples[s . strip()]for sinnegative _ examples]x _ text正_ examples负_ examples #添加了两个列表以形成数据集x _ text[clean _ str(send)for sentinx _ text]#删除每封邮件中的标点符号等无用字符

函数clean_str()用于从每个示例邮件中移除其他字符。

治疗后,前三项如下

cnn英文垃圾邮件分类 卷积池化全连接

二维码

扫一扫关注我们

版权声明:本文内容由互联网用户自发贡献,本站不拥有所有权,不承担相关法律责任。如果发现本站有涉嫌抄袭的内容,欢迎发送邮件至 201825640@qq.com举报,并提供相关证据,一经查实,本站将立刻删除涉嫌侵权内容。

相关文章

  • 英语写作-如何度过疫情期间

    英语写作-如何度过疫情期间

    毫无疑问,新冠性病毒时2020年高考英语作文命题的热点之一。本文整理疫情相关的发展、介绍、人物、应对措施及倡议书等优秀范文,供考生学习参考。05如何度过疫情期...

    2025-04-15

  • 【收藏】考研复试英语口语素材集合5.你的家庭

    【收藏】考研复试英语口语素材集合5.你的家庭

    【收藏】考研复试英语口语素材集合5.你的家庭。考研复试中对英语口语的考察也是必不可少的一项,最常见的考查方式就是英语自我介绍和英语口语对话,所涉及的...

    2025-04-15

  • 英语写作语法之一般现在时的构成。

    英语写作语法之一般现在时的构成。

    英语写作语法之一般现在时的构成。(关注本站,持续更新基础英语考研资料,不定时发放英语大礼包)英语语法之一般现在时的构成一般现在时是最常用的时态之一。一般现在时表...

    2025-04-15

  • 英语写作语法之现在进行时

    英语写作语法之现在进行时

    英语写作语法之现在进行时。(关注本站,持续更新基础英语考研资料,不定时发放英语大礼包)英语语法之现在进行时...

    2025-02-19

  • 英语写作语法之一般将来时

    英语写作语法之一般将来时

      英语写作语法之一般将来时。(关注本站,持续更新基础英语考研资料,不定时发放英语大礼包)前面给大家讲了一般现在时和现在进行时,今天再给大...

    2025-02-19

  • 英语写作语法之一般过去时

    英语写作语法之一般过去时

    英语写作语法之一般过去时。(关注本站,持续更新基础英语考研资料,不定时发放英语大礼包)英语语法之一般过去时前面给大家讲了一般现在时、现在进行时和一般将来时,今天...

    2025-02-13

自定义链接1

电话咨询
自定义链接2