【自然语言处理】基于python的问答系统实现

一,文件准备

        该问答系统是基于已知的问题和其一一对应的答案进行实现的。首先需要准备两个文本文件,分别命名为“question.txt”和“answer.txt”,分别是问题文件和答案文件,每一行是一个问题以及对应的答案。

        问题文件:

                中国的首都是哪个城市?

                今天气温多少度?

                天津距离北京有多远?

                小明正在干什么?

        答案文件:

                北京市

                26度

                135公里

                在上课

二,实现原理

(1)导入模块

import jieba
import numpy as np
from sklearn.feature_extraction.text import TfidfVectorizer

(2)读取数据集:输入为文件名,输出为列表

def read_corpus(file):
    lt = []
    with open(file, 'r', encoding='utf-8') as f:
        for line in f:
            lt.append(line.strip())
return lt

执行结果:

>>> q_list = read_corpus("questions.txt")

>>> q_list

['中国的首都是哪个城市?', '今天气温多少度?', '天津距离北京有多远?', '小明正在干什么?']

>>> a_list = read_corpus("answers.txt")

>>> a_list

['北京市', '26度', '135公里', '在上课']

(3)分词

def preprocess_text(q_list):
    lt = []
    for q in q_list:
        q = word_segment(q)
        lt.append(q)
return lt

preprocess_text()函数将列表q_list中的句子逐个切词,并放入lt列表中。

在preprocess_text()函数调用word_segment()函数。

def word_segment(sentence):
return ",".join(jieba.cut(sentence))

>>> s = "今天气温多少度?"

>>> word_segment(s)

'今天,气温,多少度,?'

将(2)中的q_list作为参数,传递给preprocess_text(),执行结果如下:

>>> q_list = preprocess_text(q_list)

>>> q_list

['中国,的,首都,是,哪个,城市,?', '今天,气温,多少度,?', '天津,距离,北京,有多远,?', '小明,正在,干什么,?']

4)将问题列表q_list向量化,计算每一个特征的权重

def convert2tfidf(q_list):
    vectorizer, q_tfidf = calc_tfidf(q_list)
return vectorizer, q_tfidf

def calc_tfidf(q_list, ngram_range=(1, 1)):
    # 实例化一个tfidf对象
    vectorizer = TfidfVectorizer(min_df=1, norm='l2', \
                                 smooth_idf=True, \
                                 use_idf=True, \
                                 ngram_range=ngram_range)
    # 计算每个词的tfidf值
    features = vectorizer.fit_transform(q_list)
return vectorizer, features

将(3)中的问题列表q_list作为参数,传递给convert2tfidf()函数

>>> vectorizer, q_tfidf = convert2tfidf(q_list) # vectorizer是一个向量化器

>>> type(q_tfidf) # q_tfidf是一个稀疏矩阵

<class 'scipy.sparse.csr.csr_matrix'>

>>> q_tfidf.toarray().round(2) # 将稀疏矩阵转化为普通矩阵,保留两位小数

array([[0.5, 0., 0., 0.5, 0.5, 0., 0., 0., 0., 0., 0., 0., 0., 0.5],

[0., 0.58, 0., 0., 0., 0.58, 0., 0., 0., 0., 0., 0.58, 0., 0.],

[0., 0., 0.5, 0., 0., 0., 0.5, 0., 0., 0.5, 0., 0., 0.5, 0.],

[0., 0., 0., 0., 0., 0., 0., 0.58, 0.58, 0., 0.58, 0., 0., 0.]])

>>> q_tfidf.toarray()[0] # 查看q_tfidf矩阵的第一行

array([0.5, 0. , 0. , 0.5, 0.5, 0. , 0. , 0. , 0. , 0. , 0. , 0. , 0. , 0.5])

上述矩阵就是问题“中国的首都是哪个城市?”向量化后的结果。

>>> vectorizer.vocabulary_ # 向量化器vectorizer的词典

{'中国': 0, '首都': 13, '哪个': 3, '城市': 4, '今天': 1, '气温': 11, '多少度': 5, '天津': 6, '距离': 12, '北京': 2, '有多远': 9, '小明': 7, '正在': 10, '干什么': 8}

由上述可知,向量的第一个特征是“中国”,第二个特征是“今天”,第三个特征是“北京”,依次类推其他特征。

(5)响应用户的“查询”

def answer(query):
    query = word_segment(query)				# 对查询语句进行切词
    query = vectorizer.transform([query])		# 将查询语句向量化
    best_idx = idx_of_largest_sim(query, q_tfidf)	# 得到与查询语句最相似问题的下标
return a_list[best_idx]						# 返回与best_idx下标对应的答案
def idx_of_largest_sim(query, q_tfidf): 			# 下标idx = index
    lt = []
    # 将query由稀疏矩阵转为普通矩阵,并取其第1行,此处目的是将其转为一维矩阵。
    query = query.toarray()[0]  				# 其实query二维矩阵只有一行
    for q in q_tfidf:
        q = q.toarray()        				# 将q由稀疏矩阵转换为普通矩阵
        num = float(np.matmul(q, query))    	# 计算矩阵的点积
        denom = np.linalg.norm(q) * np.linalg.norm(query)	
        if denom == 0:
            cos = 0.0
        else:
            cos = num / denom				# 规范化,denom分母
        lt.append(cos)
    best_idx = lt.index(max(lt))
    return best_idx						# 返回值是与查询语句最相似的问题下标
np.linalg.norm(q)是问题向量的长度:

>>> np.linalg.norm([1, 3, 2])

3.7416573867739413

上述代码计算了1的值

np.linalg.norm(q)是查询向量的长度

三,完整代码

import jieba
import numpy as np
from sklearn.feature_extraction.text import TfidfVectorizer

def read_corpus(file):
    lt = []
    with open(file, 'r', encoding='utf-8') as f:
        for line in f:
            lt.append(line.strip())
    return lt

def preprocess_text(q_list):
    lt = []
    for q in q_list:
        q = word_segment(q)
        lt.append(q)
    return lt

# 度量查询query与问题库中各个问题的相似程度similarity
def idx_of_largest_sim(query, q_tfidf): # idx = index
    lt = []
    # 将query由稀疏矩阵转换为普通矩阵,并取其第1行
    query = query.toarray()[0]  
    for q in q_tfidf:
        q = q.toarray()         # 将q由稀疏矩阵转换为普通矩阵
        num = float(np.matmul(q, query))    # 计算矩阵的点积
        denom = np.linalg.norm(q) * np.linalg.norm(query)
        if denom == 0:
            cos = 0.0
        else:
            cos = num / denom
        lt.append(cos)
    best_idx = lt.index(max(lt))
    return best_idx

def calc_tfidf(q_list, ngram_range=(1, 1)):
    # 实例化一个tfidf对象
    vectorizer = TfidfVectorizer(min_df=1, norm='l2', \
                                 smooth_idf=True, \
                                 use_idf=True, \
                                 ngram_range=ngram_range)
    # 计算每个词的tfidf值
    features = vectorizer.fit_transform(q_list)
    return vectorizer, features

def convert2tfidf(q_list):
    vectorizer, q_tfidf = calc_tfidf(q_list)
    return vectorizer, q_tfidf

def word_segment(sentence):
    return ",".join(jieba.cut(sentence))

def answer(query):
    query = word_segment(query)
    query = vectorizer.transform([query])
    best_idx = idx_of_largest_sim(query, q_tfidf)
    return a_list[best_idx]

if __name__ == "__main__":
    q_list = read_corpus("questions.txt")    # 问题列表
    a_list = read_corpus("answers.txt")      # 答案列表
    # 分词后的问题列表,每个问题的分词字符串为一个列表元素
    q_list = preprocess_text(q_list)
    vectorizer, q_tfidf = convert2tfidf(q_list)
    
    flag = True
    while flag:
        print("\n请输入查询,输入结束后按回车键:")
        query = input()
        if query.lower() == 'q':
            break
        print("正在为您查询,请稍后!")
        print("查询结果:", answer(query), sep="")

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/122855.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

在群晖NAS上使用AudioStation实现本地音频公网共享

文章目录 1. 本教程使用环境&#xff1a;2. 制作音频分享链接3. 制作永久固定音频分享链接&#xff1a; 之前文章我详细介绍了如何在公网环境下使用pc和移动端访问群晖Audio Station&#xff1a; 公网访问群晖audiostation听歌 - cpolar 极点云 群晖套件不仅能读写本地文件&a…

Spring Boot中配置多个数据源

配置数据源实际上就是配置多个数据库&#xff0c;在一个配置文件中配置多个数据库&#xff0c;这样做主要的好处有以下几点&#xff1a; 数据库隔离&#xff1a;通过配置多个数据源&#xff0c;可以将不同的业务数据存储在不同的数据库中&#xff0c;实现数据的隔离。这样可以…

安全易用的文件同步程序:Syncthing | 开源日报 No.70

syncthing/syncthing Stars: 55.0k License: MPL-2.0 Syncthing 是一个持续文件同步程序&#xff0c;它在两台或多台计算机之间同步文件。该项目的主要功能和核心优势包括&#xff1a; 安全防止数据丢失抵御攻击易于使用自动化操作&#xff0c;仅在必要时需要用户交互适合在各…

Pytest系列(16)- 分布式测试插件之pytest-xdist的详细使用

前言 平常我们功能测试用例非常多时&#xff0c;比如有1千条用例&#xff0c;假设每个用例执行需要1分钟&#xff0c;如果单个测试人员执行需要1000分钟才能跑完当项目非常紧急时&#xff0c;会需要协调多个测试资源来把任务分成两部分&#xff0c;于是执行时间缩短一半&#…

船舶数据采集与数据模块解决方案

标准化信息处理单元原理样机初步方案&#xff1a; 1&#xff09;系统组成 标准化信息处理单元原理样机包含硬件部分和软件部分。 硬件部分包括集成电路板、电源模块、主控模块、采集模块、信息处理模块、通讯模块、I/O模块等。 软件部分包括协议统一标准化模块、设备互联互…

R语言将向量横向转换为单行数据框,随后整合数量不确定的数据框

vector1 c(1, “karthik”, “IT”) names(vector1) c(“id”, “name”, “branch”) df data.frame(as.list(vector1)) print(df) 先给向量的元素命名&#xff0c;然后转换为列表&#xff0c;最后转换为数据框。 我的需求大概是这个样子&#xff1a;数量不确定的仅有单行…

猫罐头怎么选?千万别错过这5款好吃放心的猫罐头推荐!

猫罐头不仅美味可口&#xff0c;而且营养丰富&#xff0c;是专为猫咪打造的美食。那么&#xff0c;猫罐头怎么选&#xff1f;作为一位经营宠物店7年的店长&#xff0c;我对猫猫的饮食都非常重视&#xff0c;也见证了很多猫咪品尝各种猫罐头的瞬间&#xff0c;现在我对各个品牌的…

信创加速,美创科技加入UOS主动安全防护计划(UAPP)

近日&#xff0c;统信UOS主动安全防护计划 (UAPP) 技术沙龙暨新老会员交流活动在北京召开。 美创科技作为信创产业的重要参与者受邀参加。在2023年度UAPP合作伙伴授牌发布仪式上&#xff0c;美创科技获得统信软件授牌&#xff0c;正式成为UAPP成员单位&#xff0c;将与统信软件…

共话医疗数据安全,美创科技@2023南湖HIT论坛,11月11日见

11月11日浙江嘉兴 2023南湖HIT论坛 如约而来 深入数据驱动运营管理、运营数据中心建设、数据治理和数据安全、数据资产“入表”等热点、前沿话题 医疗数据安全、数字化转型深耕者—— 美创科技再次深入参与 全新发布&#xff1a;医疗数据安全白皮书 深度探讨&#xff1a;数字…

详细创建Prism架构wpf项目

方案一&#xff1a; 1.创建一个普通wpf项目 2、安装NuGet包&#xff1a;Prism.DryIoc 3、App.xaml.cs中: 将原本的父类Application改为&#xff1a;PrismApplication&#xff0c;并且实现抽象类 CreateShell方法中写上&#xff1a;”return Container.Resolve<MainWindow>…

分享4个MSVCP100.dll丢失的解决方法

msvcp100.dll是一个重要的动态链接库文件&#xff0c;它是Microsoft Visual C 2010 Redistributable Package的一部分。这个文件的作用是提供在运行C程序时所需的函数和功能。如果计算机系统中msvcp100.dll丢失或者损坏&#xff0c;就会导致软件程序无法启动运行&#xff0c;会…

【STM32】HAL库UART含校验位的串口通信配置BUG避坑

【STM32】HAL库UART含校验位的串口通信配置BUG避坑 文章目录 UART协议校验位HAL库配置含校验位的串口配置BUG避坑附录&#xff1a;Cortex-M架构的SysTick系统定时器精准延时和MCU位带操作SysTick系统定时器精准延时延时函数阻塞延时非阻塞延时 位带操作位带代码位带宏定义总线函…

2023年萤石C6C系列监控如何设置群晖Surveillance网络摄像机套件教程

2023年萤石C6C系列监控如何设置群晖Surveillance网络摄像机套件教程 前置工作莹石云视频App设置群晖Nas设置温馨提醒 前置工作 按照说明书安装好莹石监控摄像机&#xff0c;确保机器正常运作&#xff1b;设置好莹石云视频App&#xff0c;确保能够正常查看监控视频。在群晖Nas的…

RocketMQ常用管理命令

MQAdmin是RocketMQ自带的命令行管理工具&#xff0c;在bin目录下&#xff0c;运行mqadmin即可执行。使用mqadmin命令&#xff0c;可以进行创建、修改Topic&#xff0c;更新Broker的配置信息&#xff0c;查询特定消息等各种操作。本节将介绍几个常用的命令。 1.创建/修改Topic …

基于STC15单片机温度光照蓝牙传输-proteus仿真-源程序

一、系统方案 本设计采用STC15单片机作为主控器&#xff0c;液晶1602显示&#xff0c;DS18B20采集温度&#xff0c;光敏电阻采集光照、按键设置温度上下限&#xff0c;测量温度小于下限&#xff0c;启动加热&#xff0c;测量温度大于上限&#xff0c;启动降温。 二、硬件设计 …

聚观早报 |GPT-4周活用户数达1亿;长城汽车10月销量增加

【聚观365】11月8日消息 GPT-4周活用户数达1亿 长城汽车10月销量增加 xAI宣布推出PromptIDE工具 aigo爱国者连发5款儿童手表 SpaceX预计今年营收90亿美元 GPT-4周活用户数达1亿 在OpenAI首届开发者大会上&#xff0c;该公司首席执行官萨姆奥特曼&#xff08;Sam Altman&a…

Linux内核分析(九)--CPU上下文

目录 一、引言 二、CPU上下文 ------>2.1、CPU上下文切换 三、线程上下文切换 ------>3.1、协程 四、中断上下文切换 ------>4.1、vmstat ------>4.2、pidstat ------>4.3、sysbench 一、引言 Linux是一个多任务的操作系统,可以支持远大于CPU数量的…

java项目之高校推免报名(ssm框架)

项目简介 高校推免报名实现了以下功能&#xff1a; 管理员功能&#xff1a;管理员登陆后&#xff0c;主要模块包括首页、个人中心、考生管理、报名指南管理、报名入口管理、专业信息管理、考生报名管理、考生成绩管理、面试通知管理、参加面试管理、面试成绩管理、综合成绩管…

Springboot养老院信息管理系统的开发-计算机毕设 附源码27500

Springboot养老院信息管理系统的开发 摘 要 随着互联网趋势的到来&#xff0c;各行各业都在考虑利用互联网将自己推广出去&#xff0c;最好方式就是建立自己的互联网系统&#xff0c;并对其进行维护和管理。在现实运用中&#xff0c;应用软件的工作规则和开发步骤&#xff0c;…

2023首届中国水果互联网上海论坛成功举办!

11月7日&#xff0c;“2023首届中国水果互联网上海论坛“在上海浦东嘉里大酒店成功举办&#xff0c;本次论坛是推动水果行业产业互联网发展的重要活动&#xff0c;也是中国水果互联网论坛的系列活动之一。 “2023首届中国水果互联网上海论坛”是由亚果会和亚果学社联合发起&…