基于支持向量机的垃圾邮件分类,使用SVM+flask+vue

sms-classify

基于支持向量机的垃圾邮件分类,使用SVM+flask+vue
数据集和源码地址
sms_classify

数据集 SMS Spam Collection Data Set 来源于 UCI。样例被分为非垃圾邮件(86.6%)和垃圾邮件(13.4%),数据格式如下:

ham Go until jurong point, crazy.. Available only in bugis n great world la e buffet... 
ham	Ok lar... Joking wif u oni...
spam	Free entry in 2 a wkly comp to win FA Cup final tkts 21st May 2005. 
ham	U dun say so early hor... U c already then say...

代码结构

- client: 前端实现
- server: 后端实现
    - models: svm model
        - sms_classify.py: 垃圾邮件分类实现
        - SMSSpamCollection: 数据集
    - app.py 系统实现
- svm.py: 支持向量机算法实现
- svm_test.py:算法test

性能评估

综合比较了垃圾邮件分类任务在支持向量机、朴素贝叶斯、最近邻、决策树算法下的性能,
评估指标包括accuracy、precision、recall、f1-score等。

从accuracy来看,支持向量机的accuracy为98%,是所有测试算法中最高的,可以看出
垃圾邮件分类任务适合使用支持向量机来做。

各算法表现具体如下表:

  • 支持向量机:
             precision    recall  f1-score   support

           0       0.98      1.00      0.99       482
           1       1.00      0.86      0.92        76

    accuracy                           0.98       558
   macro avg       0.99      0.93      0.96       558
weighted avg       0.98      0.98      0.98       558

支持向量机的accuracy有 98.029%。

  • 贝叶斯算法:
         precision    recall  f1-score   support

           0       0.94      1.00      0.97       482
           1       1.00      0.62      0.76        76

    accuracy                           0.95       558
   macro avg       0.97      0.81      0.87       558
weighted avg       0.95      0.95      0.94       558

贝叶斯算法的accuracy只有 94.803%。

  • 最近邻算法:
     precision    recall  f1-score   support

           0       0.97      0.99      0.98       482
           1       0.93      0.83      0.88        76

    accuracy                           0.97       558
   macro avg       0.95      0.91      0.93       558
weighted avg       0.97      0.97      0.97       558

最近邻算法的accuracy为 96.774%。

  • 决策树算法:
       precision    recall  f1-score   support

           0       0.97      0.98      0.98       482
           1       0.88      0.79      0.83        76

    accuracy                           0.96       558
   macro avg       0.92      0.89      0.90       558
weighted avg       0.96      0.96      0.96       558

决策树算法的accuracy为 95.699%。

如何运行

首先安装必要的包

# 创建虚拟环境
python -m venv env
# 激活虚拟环境
source env/bin/activate
# 安装依赖包
pip install -r requirements.txt

运行SVM算法实现

# 确保安装 matplotlib 和 numpy
python3 svm_test.py

运行垃圾邮件分类

~ cd server/models/
~ python3 sms_classify.py 

运行垃圾邮件分类系统

server端
# 确保安装必要的包
# 启动flask
python app.py

client端
# 确保安装node & npm
npm install
npm run server

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/732808.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Why RAG is slower than LLM?

I used RAG with LLAMA3 for AI bot. I find RAG with chromadb is much slower than call LLM itself. Following the test result, with just one simple web page about 1000 words, it takes more than 2 seconds for retrieving: 我使用RAG(可能是指某种特定的…

高考志愿填报,二个准备三个重点四个原则

对于高考生而言,高考完毕并不是可以轻松地开始,接下来需要研究怎么报考的问题。如何在理想和现实中取得平衡?如何根据就业和专业的前景做合适的安排,对于还处于青少年阶段的高考生们来说不是容易的事情,要掌握哪些技巧…

第2章 Android应用的界面编程

🌈个人主页:小新_- 🎈个人座右铭:“成功者不是从不失败的人,而是从不放弃的人!”🎈 🎁欢迎各位→点赞👍 收藏⭐️ 留言📝 🏆所属专栏&#xff1…

后端路线指导(4):后端春招秋招经验分享

后端春招&秋招经验分享 春招(暑期实习) /秋招是应届生非常重要的应聘时间,每一个想就业的同学一定要有所了解! 本篇内容,老白将与大家分享暑期实习和秋招如何应对招聘的个人经验,希望每个同学看完都能有所收获! 首先说明一下老白对于面试核心竞争力的…

Java比较运算符

关系运算符和比较运算符适用于条件判断类型。 相当于布尔值,只有True和False两个 符号 说明ab,判断a的值是否等于b的值,条件成立为true,不成立为false ! a!b,判断a和b的值是否不相等,条件成立为true,不成立为false > …

spring注解驱动系列-- spring容器创建原理

从源码开始探究spring容器的创建原理,下面是源码总步骤 Override public void refresh() throws BeansException, IllegalStateException {synchronized (this.startupShutdownMonitor) {// Prepare this context for refreshing.prepareRefresh();// Tell the subc…

Shell编程规范与变量-01

一、Shell脚本概述 在一些复杂的 Linux 维护工作中,大量重复性的输入和交互操作不仅费时费力,而且容易出错,而编写一个恰到好处的 Shell 脚本程序,可以批量处理、自动化地完成一系列维护任务,大大减轻管理员的负担。 1…

【数据结构与算法】线索二叉树 详解

为什么可在不增加指针域的情况下,对二叉树进行线索化? 不增加指针域:因为可以利用n1个空链域。 在线索二叉树中,为每个节点添加两个标志位,分别表示左指针和右指针是普通的孩子指针还是线索(前驱或后继&a…

WPS没保存关闭了怎么恢复数据?4个方法(更新版)

想象一下,你正在用WPS奋笔疾书,灵感如泉水般涌出,突然间,电脑却跟你开了个玩笑——啪地一下,文档未保存就关闭了!是不是感觉像是被泼了一盆冷水,所有的热情瞬间熄灭?别急&#xff0c…

Vue78-缓存路由组件

一、需求 路由切走的时候&#xff0c;组件会被销毁&#xff0c;路由切回来&#xff0c;组件被挂载&#xff01; 需要&#xff1a;路由切走的时候&#xff0c;组件不会被销毁。 二、代码实现 若是不加include属性&#xff0c;则在<router-view>里面展示的路由&#xff0c…

【MySQL进阶之路 | 高级篇】InnoDB存储结构(页的内部结构)

1. 数据库的存储结构 : 页 索引结构给我们提供了高效的索引方式&#xff0c;不过索引信息以及数据记录都是保存在文件上的.确切说是存储在页结构中.另一方面&#xff0c;索引是在存储引擎中实现的&#xff0c;MySQL服务器上的存储引擎负责对表中数据的读取和写入操作.不同的存…

MQTTfx连接阿里云(详细版)

1、介绍 作为物联网开放平台&#xff0c;阿里云可谓是吸引大多数嵌入式爱好者的平台。物联网MQTT协议火热的今天&#xff0c;你使用过阿里云吗&#xff1f;本篇文章带你接触阿里云&#xff0c;实现MQTT通信。 我们在测试MQTT之前先了解下什么是MQTT协议。大家都知道它是一种发…

面向对象修炼手册(一)(类与对象)(Java宝典)

&#x1f308; 个人主页&#xff1a;十二月的猫-CSDN博客 &#x1f525; 系列专栏&#xff1a; &#x1f3c0;面向对象修炼手册 &#x1f4aa;&#x1f3fb; 十二月的寒冬阻挡不了春天的脚步&#xff0c;十二点的黑夜遮蔽不住黎明的曙光 目录 思想 代理和团体 类 1 基本概…

什么是N卡和A卡?有什么区别?

名人说&#xff1a;莫听穿林打叶声&#xff0c;何妨吟啸且徐行。—— 苏轼《定风波莫听穿林打叶声》 本篇笔记整理&#xff1a;Code_流苏(CSDN)&#xff08;一个喜欢古诗词和编程的Coder&#x1f60a;&#xff09; 目录 一、什么是N卡和A卡&#xff1f;有什么区别&#xff1f;…

Qt creator day3练习

2、升级优化自己应用程序的登录界面。 要求&#xff1a; 1. qss实现 2. 需要有图层的叠加 &#xff08;QFrame&#xff09; 3. 设置纯净窗口后&#xff0c;有关闭等窗口功能。 4. 如果账号密码正确&#xff0c;则实现登录界面关闭&#xff0c;另一个应用界面显示。 widget…

WordPress插件:子比zibll主题插件 炙焰美化全开源插件V3.2——让你的网站瞬间焕发光彩

随着互联网的普及&#xff0c;越来越多的企业和个人开始拥有自己的网站。然而&#xff0c;一个美观、专业的网站却并非易事。幸运的是&#xff0c;现在市场上有许多优秀的WordPress插件可以帮助我们快速实现这一目标。今天&#xff0c;我们要介绍的就是一款名为“子比zibll主题…

告别手抖尴尬!教你轻松缓解手部震颤的小秘诀!

在我们的日常生活中&#xff0c;手抖这个现象可能并不罕见。不论是因为紧张、疲劳还是某些健康问题&#xff0c;手抖都会给我们的生活带来诸多不便。今天&#xff0c;就让我们一起探讨如何缓解手部震颤&#xff0c;让你告别手抖的尴尬&#xff01; 一、手抖的成因及影响 手抖&…

解两道四年级奥数题(等差数列)玩玩

1、1&#xff5e;200这200个连续自然数的全部数字之和是________。 2、2&#xff0c;4&#xff0c;6&#xff0c;……&#xff0c;2008这些偶数的所有各位数字之和是________。 这两道题算易错吧&#xff0c;这里求数字之和&#xff0c;比如124这个数的全部数字之和是1247。 …

python-爬虫篇-爬取百度贴吧,段友之家的图片和视频

#!/usr/bin/env python # -*- coding: utf-8 -*-""" 爬取百度贴吧&#xff0c;段友之家的图片和视频 author: cuizy time&#xff1a;2018-05-19 """import requests import bs4 import osdef write_file(file_url, file_type):""&quo…

【数据结构与算法】二叉树的性质 详解

在二叉树的第i层上至多有多少个结点。 在二叉树的第 i 层上至多有 2 i − 1 2^{i-1} 2i−1 个结点(i≥1)。 深度为 K的二叉树至多有多少个结点。 深度为 k 的二叉树上至多含 2 k − 1 2^k - 1 2k−1 个结点(k≥1)。 在一颗二叉树中, 其叶子结点数n0和度为二的结点数n2之间…