使用 Python 进行自然语言处理第 3 部分:使用 Python 进行文本预处理

一、说明

        文本预处理涉及许多将文本转换为干净格式的任务,以供进一步处理或与机器学习模型一起使用。预处理文本所需的具体步骤取决于具体数据和您手头的自然语言处理任务。

        常见的预处理任务包括:

  • 文本规范化——将文本转换为标准表示形式,例如全部小写。
  • 删除停用词、标点符号、特殊单词或文本片段,例如井号标签、URL、表情符号、非 ASCII 字符等。
  • 词干提取——从文本单词中删除后缀
  • 词形化 - 将单词转化为它们的引理形式(引理是字典中存在的单词的形式)。
  • 拼写更正——更正任何拼写错误
  • 通过绘图进行探索性分析

        NLTK、SpaCy 等库提供内置的文本预处理功能。

二、文本预处理

2.1 文本预处理的好处

  • 降维:包含许多单词的文本文档可以表示为多维向量。文档的每个单词都是向量的维度之一。应用文本处理有助于删除对您所针对的实际 NLP 任务可能没有意义的单词,从而减少数据的维度,这反过来又有助于解决维数灾难问题并提高 NLP 任务的性能。

2.2 文本预处理

        下载到您的计算机并将其加载到 pandas 数据框中。如果使用 read_csv(),请使用编码 = 'latin-1'。数据集有很多列,我们只对这篇关于文本预处理的文章的原始推文列感兴趣。

# Read the dataset into a dataframe
import pandas as pd
train_data = pd.read_csv('Corona_NLP_train.csv',  encoding='latin-1')
train_data.head()

# Remove the columns not relevant to Text-Preprocessing Task
train_data = train_data.drop(['UserName', 'ScreenName', 'Location', 'TweetAt', 'Sentiment'], axis = 1)
train_data.columns

小写转换

#1. Case Conversion to Lower Case
train_data['OriginalTweet'] = train_data['OriginalTweet'].str.lower()
train_data.head()

删除停用词和标点符号

#Remove stop words and punctuation marks
#https://stackoverflow.com/questions/29523254/python-remove-stop-words-from-pandas-dataframe
import nltk
import string
from nltk.corpus import stopwords
stop_words = stopwords.words('english')
stopwordsandpunct = stop_words + list(string.punctuation)

train_data['OriginalTweet'] = train_data['OriginalTweet'].apply(lambda w:' '.join(w for w in w.split() if w not in stopwordsandpunct))
train_data['OriginalTweet']

删除 URL

# Remove URLs from all the tweets
import re
def remove_url(tweet):
    tweet = re.sub(r'\w+:\/{2}[\d\w-]+(\.[\d\w-]+)*(?:(?:\/[^\s/]*))*', '', tweet)
    return tweet

train_data['OriginalTweet'] = train_data['OriginalTweet'].apply(remove_url)
train_data['OriginalTweet'].head()

删除提及和井号标签

# remove mentions and hashtags
def remove_mentions_hashs(tweet):
    tweet = re.sub("@[A-Za-z0-9_]+","", tweet) #Remove mentions
    tweet = re.sub("#[A-Za-z0-9_]+","", tweet) #Remove hashtags
    return tweet

train_data['OriginalTweet'] = train_data['OriginalTweet'].apply(remove_mentions_hashs)
train_data['OriginalTweet'].head()

删除表情符号

# Removing emojis from tweets
# Source Credit: https://stackoverflow.com/a/49146722/330558
import re
def remove_emojis(tweet):
    pat = re.compile("["
                           u"\U0001F600-\U0001F64F"  # emoticons
                           u"\U0001F300-\U0001F5FF"  # symbols & pictographs
                           u"\U0001F680-\U0001F6FF"  # transport & map symbols
                           u"\U0001F1E0-\U0001F1FF"  # flags (iOS)
                           u"\U00002702-\U000027B0"
                           u"\U000024C2-\U0001F251"
                           "]+", flags=re.UNICODE)
    return pat.sub(r'', tweet)

train_data['OriginalTweet'] =train_data['OriginalTweet'].apply(remove_emojis)
train_data.head()

删除非 ASCII 字符

#https://docs.python.org/2/library/unicodedata.html#unicodedata.normalize
import unicodedata
def remove_nonascii(text):
    text = unicodedata.normalize('NFKD', text).encode('ascii', 'ignore').decode('utf-8', 'ignore')# apply compatibility decomposition
    return text
train_data['OriginalTweet'] = train_data['OriginalTweet'].apply(remove_nonascii)
train_data.head()

删除空字符串

import string
def remove_empty_strings1(tweet):
    tweet = re.sub(r"^\s+|\s+$", 'NaN', tweet)
    return tweet
train_data['OriginalTweet'] =train_data['OriginalTweet'].apply(remove_empty_strings1)

删除主题标签、URL 后删除所有包含 NaN 的行

train_data = train_data[train_data['OriginalTweet'] != 'NaN']

# Now resetting index of Data frame
train_data = train_data.reset_index(drop = True)

使用 TextBlob 进行拼写更正

# Spelling correction
import warnings
warnings.filterwarnings("ignore")
from textblob import TextBlob   
train_data['SpellCorrectedTweet'] = train_data['OriginalTweet'].apply(lambda x : str(TextBlob(x).correct()))
train_data.head()

使用 NLTK 的内置 Tokenizer 进行标记化

# Now we will perform tokenization
import nltk
from nltk import word_tokenize
tokenizer = nltk.tokenize.WhitespaceTokenizer()
def tokenize(text):
    return tokenizer.tokenize(text)

train_data['OriginalTweet'] = train_data['OriginalTweet'].apply(tokenize)
train_data['OriginalTweet'].head()

使用 NLTK 的 WordNetLemmatizer 进行词形还原

import nltk
tokenizer = nltk.tokenize.WhitespaceTokenizer()
lemmatizer = nltk.stem.WordNetLemmatizer()

def lemmatize(text):
    return [lemmatizer.lemmatize(w) for w in text]

train_data['OriginalTweet'] = train_data['OriginalTweet'].apply(lemmatize)
train_data.head()

使用 NLTK 的 PorterStemmer 进行词干提取

# Stemming
from nltk.stem import PorterStemmer
stemmer = PorterStemmer()

def stemming(text):
    return [stemmer.stem(w) for w in text]

train_data['OriginalTweet'] = train_data['OriginalTweet'].apply(stemming)
train_data.head()

计算推文中最常见的单词

# Counting most frequent words in tweets
#https://docs.python.org/3/library/itertools.html#itertools.chain
import itertools
import collections
all_tweets = list(train_data["OriginalTweet"])
all_tokens = list(itertools.chain(*all_tweets))
token_counts = collections.Counter(all_tokens)

# Print 10 most common words with their frequency
print(token_counts.most_common(10))

# Convert above words and frequencies to a dataframe
df = pd.DataFrame(token_counts.most_common(20), columns=['Token','Count'])
df.head()

# Plotting frequencies using Matplotlib barplot
import matplotlib.pyplot as plt
plt.rcParams["figure.figsize"] = (12,8)
df.sort_values(by = 'Count').plot.bar(x='Token', y='Count')
plt.title('Most Used Words')
plt.show()

下一篇文章介绍文本表示技术:

使用 Python 进行自然语言处理第 4 部分:文本表示

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/360280.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

JVM篇----第十八篇

系列文章目录 文章目录 系列文章目录前言一、什么是Java虚拟机?为什么Java被称作是“平台无关的编程语言”?二、对象分配规则三、描述一下JVM加载class文件的原理机制?前言 前些天发现了一个巨牛的人工智能学习网站,通俗易懂,风趣幽默,忍不住分享一下给大家。点击跳转到…

《Lua程序设计》-- 学习9

迭代器和泛型for 迭代器和闭包 迭代器(iterator)是一种可以让我们遍历一个集合中所有元素的代码结构。在Lua语言中,通常使用函数表示迭代器:每一次调用函数时,函数会返回集合中的“下一个”元素。 一个闭包就是一个…

Kotlin快速入门系列9

Kotlin对象表达式和对象声明 对象表达式 有时,我们想要创建一个对当前类有些许修改的对象同时又不想重新声明一个子类。如果是Java,可以用匿名内部类的概念来解决这个问题。kotlin的对象表达式和对象声明就是为了实现这一点(创建一个对某个类做了轻微改…

我们距离AGI还有多远

什么是AGI AGI(人工通用智能)是指能够像人类一样完成任何智能任务的人工智能系统。AGI的目标是创建一个全面智能的系统,可以解决广泛的问题并进行多种任务。这种系统能够在不同的环境中适应和学习,并且可以从不同的来源中获取信息…

Flink实战四_TableAPISQL

接上文:Flink实战三_时间语义 1、Table API和SQL是什么? 接下来理解下Flink的整个客户端API体系,Flink为流式/批量处理应用程序提供了不同级别的抽象: 这四层API是一个依次向上支撑的关系。 Flink API 最底层的抽象就是有状态实…

JAVA处理类似饼状图占比和100%问题,采用最大余额法

前言: 在做数据统计报表的时候,有两种方式解决占比总和达不到100%或者超过100%问题。 第一种方式是前端echart图自带的算分框架。 第二种方式是java后端取处理这个问题。 现存问题: 前端不通过饼状图的方式去展示各个分类的占比累加和为100%问…

CESS 激励测试网 v0.7.6 将于1月31日上线

Cumulus Encrypted Storage System (CESS) 是基于区块链的去中心化云存储网络和 CDN 网络,支持数据在线存储和实时共享,为 Web3 高频动态数据的存储和检索提供全栈解决方案。 CESS 数据价值网络是以 DePIN 理念建设的 Layer 1 基础设施,具有…

SAP下载word

事务代码:STRANS 启动转换器 步骤 1. 将参数填入模板,并另存为word 2003 xml文档 2.使用网页打开xml文档,并将xml拷贝到转换器tt:template中,添加参数 3.替换参数,部分xml可能存在错误或者跑偏根据实际情况检查修改 …

1. 两数之和(力扣LeetCode)

文章目录 1. 两数之和题目描述哈希表:map二分查找暴力:双重for循环 1. 两数之和 题目描述 给定一个整数数组 nums 和一个整数目标值 target,请你在该数组中找出 和为目标值 target 的那 两个 整数,并返回它们的数组下标。 你可…

EDTER:融合transformer的边缘检测网络

原文链接:EDTER 首先回顾viT部分: 和ViT一样,先把图像分割为P*P大小的patch,分别经过映射得到tokens:patch embeddings。后面也加了ViT一样的position embedding,得到combined embeddings。 ViT中的Tran…

一篇文章让你搞懂性能测试6大类型及其关系!

性能测试是软件测试过程的一个关键环节,用于确定和验证应用程序或系统在各种操作条件下的性能特征。 目标是确保软件在高负载、高压力、长时间运行以及其他非标准情况下仍能保持预期的行为和效率。 一. 性能测试的主要类型 1. 基线测试(Baseline Test…

​学者观察 | 区块链技术理论研究与实践观察——中央财经大学朱建明

导语 当下区块链研究成果质量越来越高,技术应用越来越成熟。在现阶段的研究中存在哪些短板需要弥补,如何将研究成果转化为推动数字经济高质量发展的实际应用,区块链技术与其他新技术结合发展将带来哪些新的机遇? 中央财经大学朱…

阿里云推出 3.x Java 探针,解锁应用观测与治理的全新姿势

作者:张铭辉、泮圣伟 前言 随着春节大促即将到来,为了确保线上业务高效稳定地运行,电商企业大多会对旗下关键业务应用进行多轮测试。通过模拟线上较高流量的请求,来观察服务性能的实际表现。以某企业的业务测试报告举例&#xf…

呼吸灯--FPGA

目录 1.breath_led.v 2.tb_breath_led.v 呼吸灯就是从完全熄灭到完全点亮,再从完全点亮到完全熄灭。具体就是通过控制PWM的占空比控制亮灭程度。 绘制PWM波的步骤就是,首先灯是在第一个时钟周期保持高电平熄灭状态,在第二个时钟周期保持1/1…

Logstash 7.7.1版本安装系统梳理

前言 上一篇文章介绍了 《ElasticSearch7.7.1集群搭建 & Kibana安装》,今天说一下 Logstash的安卓和配置; Logstash是一个开源的数据收集引擎,具有实时管道功能。它可以动态地将来自不同数据源的数据统一起来,并将数据标准化…

Redis集群环境搭建

Redis集群环境搭建 Redis主从复制 概念 主从复制是指将一台Redis服务器的数据,复制到其他的Redis服务器,前者称为主节点(master/leader),后者称为从节点(slave/followe);数据的复制是单向的,只能从主节点到从节点&a…

使用Promethues+Grafana监控Elasticsearch

PromethuesGrafana监控Elasticsearch 监控选用说明指标上报流程说明实现监控的步骤搭建elasticsearch-exporter服务搭建promethues和grafana服务 监控选用说明 虽然用Kibana来监控ES,能展示一些关键指标,但ES本身收集的指标并不全面,还需要在…

【刷题】牛客网 NC132 环形链表的约瑟夫问题

NC132 环形链表的约瑟夫问题 题目描述思路一(链表直通版)思路二(数组巧解版)思路三(变态秒杀版)Thanks♪(・ω・)ノ谢谢阅读下一篇文章见!!&#xff…

【C语言】探索数据结构:单链表和双链表

目录 💡链表的概念和结构 💡链表的分类 💡无头单向非循环链表(单链表)的实现 定义节点结构 单链表的尾部插入 单链表的头部插入 单链表的尾部删除 单链表的头部删除 在指定位置插入前数据 在指定位置之后插入数…

TypeScript 学习笔记(Day3)

「写在前面」 本文为 b 站黑马程序员 TypeScript 教程的学习笔记。本着自己学习、分享他人的态度,分享学习笔记,希望能对大家有所帮助。推荐先按顺序阅读往期内容: 1. TypeScript 学习笔记(Day1) 2. TypeScript 学习笔…