pytorch集智-2单车预测器

完整代码在个人主页简介链接pytorch路径下可找到

1 单车预测器1.0

1.1 人工神经元

对于sigmoid函数来说,w控制函数曲线的方向,b控制曲线水平方向位移,w'控制曲线在y方向的幅度

1.2 多个人工神经元

模型如下

数学上可证,有限神经元绘制的曲线可以逼近任意有限区间内的曲线(闭区间连续函数有界)

1.3 模型与代码

通过训练可得到逼近真实曲线的神经网络参数

通过梯度下降法寻找局部最优(如何寻找全局最优后面考虑)

思考 n个峰需在一个隐层要多少隐单元?材料说3个峰10个单元就够了,理论上算,最少需要5个,可能保险起见,加其他一些不平滑处,就弄了10个

初次代码如下

from os import path
import numpy as np
import pandas as pd
import torch
import torch.optim as optim
import matplotlib.pyplot as plot

DATA_PATH = path.realpath('pytorch/jizhi/bike/data/hour.csv')

class Bike():
    def exec(self):
        self.prepare_data_and_params()
        self.train()
        
    def prepare_data_and_params(self):
        self.data = pd.read_csv(DATA_PATH)
        
        counts = self.data['cnt'][:50]
        self.x = torch.FloatTensor(np.arange(len(counts)))
        self.y = torch.FloatTensor(np.array(counts, dtype=float))
        self.size = 10
        self.weights = torch.randn((1, self.size), requires_grad=True)
        self.biases = torch.randn((self.size), requires_grad=True)
        self.weights2 = torch.randn((self.size, 1), requires_grad=True)

    def train(self):
        rate = 0.001
        losses = []
        x, y = self.x.view(50, -1), self.y.view(50, -1) # reshape
        for num in range(30000):
            hidden = x * self.weights + self.biases
            hidden = torch.sigmoid(hidden)
            predictions = hidden.mm(self.weights2)
            loss = torch.mean((predictions - y) ** 2)
            losses.append(loss.data.numpy())
            if num % 3000 == 0:
                print(f'loss: {loss}')
            loss.backward()
            
            self.weights.data.add_(- rate * self.weights.grad.data)
            self.biases.data.add_(- rate * self.biases.grad.data)
            self.weights2.data.add_(- rate * self.weights2.grad.data)
            
            self.weights.grad.data.zero_()
            self.biases.grad.data.zero_()
            self.weights2.grad.data.zero_()
        
        # plot loss
        #plot.plot(losses)
        #plot.xlabel('epoch')
        #plot.ylabel('loss')
        #plot.show()
        
        # plot predict
        x_data = x.data.numpy()
        plot.figure(figsize=(10, 7))
        xplot, = plot.plot(x_data, y.data.numpy(), 'o')
        yplot, = plot.plot(x_data, predictions.data.numpy())
        plot.xlabel('x')
        plot.ylabel('y')
        plot.legend([xplot, yplot], ['Data', 'prediction with 30000 epoch'])
        plot.show()

def main():
    Bike().exec()

if __name__ == '__main__':
    main()

拟合有问题,原因是拟合次数不够,为啥不够?从sklearn学习了解到,神经网络对输入参数敏感,一般来说需要对数据做标准化处理。具体来说,第一个隐层输出范围变成-50-50,0.0001学习率情况下100000次也不够,可以对数据做预处理,减小x跨度,变为0-1,可加快训练速度,进行如下改动再次训练

self.x = torch.FloatTensor(np.arange(len(counts))) / len(counts)

正确了,再取50个点预测一下

    def predict_and_plot(self):
        counts_predict = self.data['cnt'][50:100]
        x = torch.FloatTensor((np.arange(len(counts_predict), dtype=float) + 50) / 100)
        y = torch.FloatTensor(np.array(counts_predict, dtype=float))
        
        # num multiply replace matrix multiply
        hidden = x.expand(self.size, len(x)).t() * self.weights.expand(len(x), self.size)
        hidden = torch.sigmoid(hidden)
        predictions = hidden.mm(self.weights2)
        loss = torch.mean((predictions - y) ** 2)
        print(f'loss: {loss}')
        
        x_data = x.data.numpy()
        plot.figure(figsize=(10, 7))
        xplot, = plot.plot(x_data, y.data.numpy(), 'o')
        yplot, = plot.plot(x_data, predictions.data.numpy())
        plot.xlabel('x')
        plot.ylabel('y')
        plot.legend([xplot, yplot], ['data', 'prediction'])
        plot.show()

预测失败,可能是过拟合

2 单车预测器2.0

2.1 数据预处理

通过上节学习和之前写的sklearn博客发现,神经网络训练前需要预处理数据,主要有1数值型变量需要范围标准化2数值型类型变量需处理为onehot。标准化可用sklearn的scaler,也可手动标准化,类型变量可用pd.get_dummies操作。直接开始操作

    def prepare_data_and_params_2(self):
        # type columns to dummy
        self.data = pd.read_csv(DATA_PATH)
        dummy_fields = ['season', 'weathersit', 'mnth', 'hr', 'weekday']
        for each in dummy_fields:
            dummies = pd.get_dummies(self.data[each], prefix=each, drop_first=False)
            self.data = pd.concat([self.data], dummies)
        drop_fields = ['season', 'weathersit', 'mnth', 'hr', 'weekday', 'instant', 'dteday', 'workingday', 'atemp']
        self.data = self.data.drop(drop_fields, axis=1)
        
        # decimal columns to scaler
        quant_features = ['cnt', 'temp', 'hum', 'windspeed']
        scaled_features = {}
        for each in quant_features:
            mean, std = self.data[each].mean(), self.data[each].std()
            scaled_features[each] = [mean, std]
            self.data.loc[:, each] = (self.data[each] - mean) / std
            
        self.tr, self.te = self.data[:-21 * 24], self.data[-21 * 24:]
        target_fields = ['cnt', 'casual', 'registered']
        self.xtr, self.ytr = self.tr.drop(self.tr.drop[target_fields], axis=1), self.tr[target_fields]
        self.xte, self.yte = self.te.drop(self.te.drop[target_fields], axis=1), self.te[target_fields]
        self.x = self.xtr.values
        y = self.ytr.values.astype(float)
        self.y = np.reshape(y, [len(y), 1])        
        self.loss = []

2.2 构造神经网络

    def train_and_plot2(self):
        input_size = self.xtr.shape[1]
        hidden_size=10
        output_size=1
        batch_size=128
        neu = torch.nn.Sequential(
            torch.nn.Linear(input_size, hidden_size),
            torch.nn.Sigmoid(),
            torch.nn.Linear(hidden_size, output_size)
        )
        cost = torch.nn.MSELoss()
        optimizer = torch.optim.SGD(neu.parameters(), lr=0.01)

2.3 数据批处理

为啥要批处理?如果数据太多,每个iter直接处理所有数据会比较慢

        for i in range(1000):
            batch_loss = []
            for start in range(0, len(self.x), batch_size):
                end = start + batch_size if start + batch_size < len(self.x) else len(self.x)
                xx = torch.FloatTensor(self.x[start:end])
                yy = torch.FloatTensor(self.y[start:end])
                predictions = neu(xx)
                loss = cost(predictions, yy)
                optimizer.zero_grad()
                loss.backward()
                optimizer.step()
                batch_loss.append(loss.data.numpy())
            if i % 100 == 0:
                self.loss.append(np.mean(batch_loss))
                print(i, np.mean(batch_loss))
        plot.plot(np.arange(len(self.loss)) * 100, self.loss)
        plot.xlabel('epoch')
        plot.ylabel('MSE')
        plot.show()

2.4 测试神经网络

原始数据是从2011-2012两个完整年,按教材,取2012最后21天作测试集预测

    def predict_and_plot2(self):
        targets = self.yte['cnt']
        targets = targets.values.reshape([len(targets), 1]).astype(float)
        x = torch.FloatTensor(self.xte.values.astype(float))
        y = torch.FloatTensor(targets)
        predict = self.neu(x)
        predict = predict.data.numpy()
        
        fig, ax = plot.subplots(figsize=(10, 7))
        mean, std = self.scaled_features['cnt']
        ax.plot(predict * std + mean, label='prediction')
        ax.plot(targets * std + mean, label='data')
        ax.legend()
        ax.set_xlabel('date-time')
        ax.set_ylabel('counts')
        dates = pd.to_datetime(self.rides.loc[self.te.index]['dteday'])
        dates = dates.apply(lambda d: d.strftime('%b %d'))
        ax.set_xticks(np.arange(len(dates))[12::24])
        ax.set_xticklabels(dates[12::24], rotation=45)
        plot.show()

发现2012最后21天前半段还行,后半段有差异,看日历发现临近圣诞节,可能不能用正常日程预测

2.5 改进与分析(重要)

这节有啥用?上节圣诞节预测不准,为啥?这节可以通过分析神经网络回答这个问题

怎么分析?本节主要通过分析神经网络参数来在底层寻找原因,帮助分析问题

在异常处将多个神经源绘制独自的曲线,绘制其图像,分析找原因,比如趋势相同,趋势相反这种曲线,重点分析对象。适用于神经元较少,可以一个一个神经元看,多了就不行了

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/299060.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

[大厂实践] 无停机迁移大规模关键流量(下)

在系统升级、迁移的过程中&#xff0c;如何验证系统逻辑、性能正确无误&#xff0c;是一个很大的挑战。这一系列介绍了Netflix通过重放流量测试解决这一挑战的实践。原文: Migrating Critical Traffic At Scale with No Downtime — Part 2 想象一下&#xff0c;你被心爱的Netf…

【操作系统xv6】学习记录5--实验1 Lab: Xv6 and Unix utilities

ref:https://pdos.csail.mit.edu/6.828/2020/xv6.html 实验&#xff1a;Lab: Xv6 and Unix utilities 环境搭建 实验环境搭建&#xff1a;https://blog.csdn.net/qq_45512097/article/details/126741793 搭建了1天&#xff0c;大家自求多福吧&#xff0c;哎。~搞环境真是折磨…

浅谈 JVM 类加载过程

&#x1f697;&#x1f697;&#x1f697;今天给大家分享的是HTTPS加密的工作过程。 清风的CSDN博客 &#x1f6e9;️&#x1f6e9;️&#x1f6e9;️希望我的文章能对你有所帮助&#xff0c;有不足的地方还请各位看官多多指教&#xff0c;大家一起学习交流&#xff01; ✈️✈…

SQL Server从0到1——写shell

xp_cmdshell 查看能否使用xpcmd_shell&#xff1b; select count(*) from master.dbo.sysobjects where xtype x and name xp_cmdshell 直接使用xpcmd_shell执行命令&#xff1a; EXEC master.dbo.xp_cmdshell whoami 发现居然无法使用 查看是否存在xp_cmdshell: EXEC…

如何在群晖7.2中运行WPS Office镜像容器并使用固定地址公网访问

文章目录 1. 拉取WPS Office镜像2. 运行WPS Office镜像容器3. 本地访问WPS Office4. 群晖安装Cpolar5. 配置WPS Office远程地址6. 远程访问WPS Office小结 7. 固定公网地址 wps-office是一个在Linux服务器上部署WPS Office的镜像。它基于WPS Office的Linux版本&#xff0c;通过…

数据结构与算法教程,数据结构C语言版教程!(第二部分、线性表详解:数据结构线性表10分钟入门)九

第二部分、线性表详解&#xff1a;数据结构线性表10分钟入门 线性表&#xff0c;数据结构中最简单的一种存储结构&#xff0c;专门用于存储逻辑关系为"一对一"的数据。 线性表&#xff0c;基于数据在实际物理空间中的存储状态&#xff0c;又可细分为顺序表&#xff…

解决pip安装第三库echarts报错:Package would be ignored而安装失败的问题

现象&#xff1a; 尝试了很多方法都没解决 &#xff0c;最后终于突然灵光一闪找到原因&#xff08;我这是python虚拟环境&#xff0c;创建的时候会自动升级pip&#xff09; 原因&#xff1a; pip版本过高&#xff01; 想不到是这原因吧&#xff01; 解决办法&#xff1a;手动…

主线程退出后子线程是否还会正常运行?

问题&#xff1a; 父子线程的关系 今天突然有感而发&#xff0c; 想要来探讨一下主线程和子线程之间的关系。 例一&#xff1a;子线程执行时间较父线程慢 public class ThreadTest {public static void main(String[] args) {// 测试主线程 和 子线程Thread sonThread new …

STM32 HAL库定时器触发DMA并口数据传输

代码目的&#xff1a; STM32与FPGA通讯&#xff0c;通过8位并口线进行通讯&#xff0c;16byte的数据在10us之内通过8位并口数据线传给FPGA&#xff0c;FPGA读取该数据。 HAL库设置说明&#xff1a; 时钟采用80MHz&#xff0c;由于16byte的数据要在10us之内传完&#xff0c;那…

《PCI Express体系结构导读》随记 —— 第I篇 第2章 PCI总线的桥与配置(8)

接前一篇文章&#xff1a;《PCI Express体系结构导读》随记 —— 第I篇 第2章 PCI总线的桥与配置&#xff08;7&#xff09; 2.2 HOST主桥 MPC8548处理器的拓扑结构如图2-2所示&#xff1a; 2.2.2 存储器域地址空间到PCI总线域地址空间的转换 MPC8548处理器使用ATMU&#xff…

协程池与新脚本语言

今天的主人公名为——Melang。 这是一款使用C语言开发的“新”的脚本语言&#xff0c;然而其已经默默问世了6年之久。 下面笔者就带你走进Melang world。 What is Melang Melang是一款协程并发脚本语言。它是一款解释型&#xff0c;而非编译型语言。 在Melang中&#xff…

计算机网络期末知识汇总

一、计算机网络概述 1.Internet 的中文译名并不统一。 现有的 Internet 译名有两种&#xff1a; 因特网&#xff0c;这个译名是全国科学技术名词审定委员会推荐的&#xff0c;但却长期未得 到推广&#xff1b; 互联网&#xff0c;这是目前流行最广的、事实上的标准译名。现…

如何在 iPhone 上检索已删除的短信:6个有效方法分享

您是否错误地删除了 iPhone 上的重要短信&#xff1f;或者您可能删除了“消息”应用程序中的整个对话并想将其恢复&#xff1f;无论您的情况如何&#xff0c;有一些数据恢复方法可以帮助您恢复 iPhone 上已删除的邮件。 在本文中&#xff0c;我们将介绍在 iPhone 上恢复丢失、…

大数据 MapReduce如何让数据完成一次旅行?

专栏上一期我们聊到MapReduce编程模型将大数据计算过程切分为Map和Reduce两个阶段&#xff0c;先复习一下&#xff0c;在Map阶段为每个数据块分配一个Map计算任务&#xff0c;然后将所有map输出的Key进行合并&#xff0c;相同的Key及其对应的Value发送给同一个Reduce任务去处理…

idea 以文本形式输出 SpringBoot项目 目录结构

第1步&#xff1a;AltF12 打开 Terminal 终端 第2步&#xff1a;cd 到 项目路径下 第3步&#xff1a;使用 tree 命令 结果 D:. ├─.mvn │ └─wrapper ├─applog │ └─logs ├─src │ ├─main │ │ ├─java │ │ │ └─com │ │ │ └─zhangziwa …

【大数据进阶第三阶段之Hive学习笔记】Hive基础入门

目录 1、什么是Hive 2、Hive的优缺点 2.1、 优点 2.2、 缺点 2.2.1、Hive的HQL表达能力有限 2.2.2、Hive的效率比较低 3、Hive架构原理 3.1、用户接口&#xff1a;Client 3.2、元数据&#xff1a;Metastore 3.3、Hadoop 3.4、驱动器&#xff1a;Driver Hive运行机制…

设计模式之迭代器模式【行为型模式】

提示&#xff1a;文章写完后&#xff0c;目录可以自动生成&#xff0c;如何生成可参考右边的帮助文档> 学习的最大理由是想摆脱平庸&#xff0c;早一天就多一份人生的精彩&#xff1b;迟一天就多一天平庸的困扰。各位小伙伴&#xff0c;如果您&#xff1a; 想系统/深入学习某…

【已解决】在开启ssh和sshd状态下,XShell无法连接到VMware虚拟机中的Linux操作系统

【已解决】在开启ssh和sshd状态下&#xff0c;XShell无法连接到VMware虚拟机中的Linux操作系统 XShell无法连接到VMware虚拟机中的Linux操作系统&#xff0c;今天上线突然发现XShell无法连接到VMware虚拟机中的Linux操作系统&#xff0c;但是找了很多解决方案都没有解决&#x…

快速排序挖坑法

我们先来感受一下挖坑法的思路&#xff1a; 经过上面的图片分析&#xff0c;我们可以感受到挖坑法和hoare版本并没有太多本质上的区别&#xff08;hoare版本的思路及代码在我的上一篇博客已经写过&#xff0c;这里我就不再赘述了&#xff09;&#xff0c;只不过挖坑法似乎更易…

Qt添加资源文件

ui->setupUi(this);//1. 使用本地文件&#xff1a;ui->actionasdasdas->setIcon(QIcon("本地绝对路径"));ui->actiona1->setIcon(QIcon("C:/Users/满满/Desktop/output/picture/1.jpg"));//2. 使用资源文件&#xff1a;ui->actionasdasd…