1.本科、专科上学时对于这些偏数学类的课程还是要好好学习
应知乎、小红书、CSDN很多年轻朋友、同学们的邀请,今天我泛谈一下数字化技能的学习。很多学生在本科或专科上学时代学过统计学、计量经济学、机器学习、数据分析、统计分析、数据挖掘、量化建模等一门或多门课程,至少也学过概率论、数理统计、线性代数、微积分等课程,其实就已经具备了相对较好的数据分析基础。等到本科或专科毕业后,有的同学致力于读研、读博,也有的同学倾向于毕业以后找工作,迈向社会,无论是读研读博还是走向职场,其实数据分析的能力要求,或者说数字化技能的要求,还是存在的。所以一方面,大家在本科、专科上学时对于这些偏数学类的课程还是要好好学习,至少一些基本的概念和基础的原理的要扎实,别光想着通过拿个学分,今天偷的懒明天需要加倍还,而今天多努力一分,明天获得的机会就会多一分。
2.毕业后读研、读博,Stata或SPSS两种统计分析软件至少要掌握起一门
如果大家毕业后读研、读博,那么就是一种学术型的数据分析路线,Stata或SPSS两种统计分析软件至少要掌握起一门。下面我先说说Stata和SPSS对比情况。
Stata是一个完整的、集成的用于数据管理、数据分析以及图表绘制的软件包,可以满足用户关于数据操作、可视化、统计和自动报告的系列需求。Stata对于数据类型的区分较为精细,针对横截面数据、时间序列数据和面板数据,Stata中有各自相对独立的模块进行研究,比如针对横截面数据有普通的相关分析、回归分析、因变量离散回归分析、因变量受限回归分析等;针对时间序列数据,有时间序列数据的预处理,移动平均滤波与指数平滑法、ARIMA模型、SARIMA模型、ARIMAX模型、单位根检验、向量自回归模型、协整检验与向量误差修正模型、ARCH系列模型等;针对面板数据,有面板数据的预处理、短面板数据分析、长面板数据分析等等。Stata作为一种数据分析软件,高度适用于依托计量经济学的研究领域,如宏观经济学、财政学等,当然在医学等学科应用也较为广泛,在处理面板数据方面也深具特色。但是其缺点在于基本上没有机器学习等功能。
SPSS是一款统计分析软件,由美国斯坦福大学的三位研究生于1968年研究开发成功。SPSS软件最大的优势是界面非常友好,很容易被用户掌握并应用,通常情况下,用户只要掌握一定的Windows操作技能,就可以使用该软件为特定的数据统计分析工作服务。相对于Stata,SPSS对于数据的区分不够精细,在SPSS中,可以通过时间变量的设置来明确数据为时间序列数据,但在横截面数据和面板数据的区分方面,缺乏简单易行的操作方式,针对时间序列数据和面板数据的分析处理方法也远不如Stata丰富,这与SPSS依托统计学的本质有关。从中国知网等平台上不难发现,当前大量CSSCI收录期刊的宏观经济学、财政学等依托计量经济学领域的实证研究类论文都使用了面板数据。面板数据通常样本数量相对较大,也可以有效解决遗漏变量的问题,还可以提供更多样本动态行为的信息,具有横截面数据和时间序列数据无可比拟的优势。但相对于Stata,处理面板数据确实是SPSS的短板。SPSS的功能特色主要体现在统计分析,兼具一部分机器学习功能,非常适合通过调查问卷获取数据开展实证分析的学术或应用研究,也可以用其进行较为基础的机器学习。
3.Stata还是SPSS?Python或R需要吗
从我了解的情况看,如果是经济学大类相关专业的学生,至少要掌握Stata,因为一般用的是真实的经济数据,高度重视因果推断;如果是管理学、教育学、心理学、医学等大类专业的学生,至少要掌握SPSS,因为一般是基于统计学原理以样本推断总体。除此之外,Python或R语言至少掌握其一,Python或R都是编程语言,用Python等编程语言的好处是:1.非常灵活,可以实现很多很多数据分析或机器学习算法(理论上只要有可调用的模块就可以);2.免费开源,用户众多,不用花钱,遇到问题可以在网上一搜,往往就可以找打答案;3.学习的延展性好,Python除了可以用来进行数据分析、机器学习,还可以进行爬虫、开发游戏、实现办公自动化等,实现一学多用。缺点在于:因为没有专业公司运营,所以在安装、调用等各个环节,很容易出错,而且不同的模块的版本之间很多时候出现升级不兼容等问题,需要一定的程序调试能力。
4.SPSS等统计分析软件也可以开展机器学习
用前面所提的SPSS等统计分析软件也可以开展机器学习,比如SPSS可以实现多层感知器、径向基函数、神经网络、决策树、判别分析、线性回归、logistic回归、聚类分析、ROC曲线等很多种方法。其优势在于:1.操作更为简单,只需要点点鼠标操作菜单,在对话框中设定选项,输入参数就可以;2.由于是由SPSS公司专业运营所以基本上不会有bug,不需要任何编程和程序调试能力;3.SPSS不仅可以用于机器学习,还可以用来进行统计分析,不仅可以搞应用还可以搞学术。缺点在于:1.方法不全,没有随机森林、支持向量机、提升法等较为常用的机器学习算法;2.不够灵活,无法根据实际研究需要向编程语言那样做到“量身定制”;3.正版软件需要收费,对于很多用户来说比较昂贵。
5.如果是上班要学数据分析,推荐学Python
如果大家是上班之后,工作中的数据分析,当然SPSS、Stata可以继续用,但其实Python是用的最多的,在数字化转型浪潮下,机器学习的各种算法早已不再局限于概念普及和理念推广层面,而是真真切切地广泛应用在各类企事业单位的各个领域,从客户分层管理到目标客户选择,从客户满意度分析到客户流失预警,从信用风险防控到精准推荐,各种算法的应用对于企业全要素生产率的边际提升起到了举足轻重的作用。一方面如果要进行建模或开展机器学习,预测商业表现或者画图做表,Python很灵活是首选,另一方面,因为SPSS/Stata都是收费的,企业自身也倾向于让员工用免费的Python语言。所以大家如果是上班要学数据分析,推荐学Python。
6.读研、读博学术科研更重要的是理论、思想与创新
以上说的都是技术层面,读研、读博学术科研更重要的是理论、思想与创新,搞学术就是为了“捅破天”。技术仅仅是一种实证方式,证明提出的理论假设是否正确,始终是为思想而服务,当然,并不是思想一定要优于数据分析,关于数据分析一无是处的观点也是偏激和错误的,很多时候,通过数据分析可以启发出新的想法、从数据中观察到新的经济社会运行规律,进而可以提出新的更好的观点,理论假设和数据分析两者是相辅相成的关系。
7.工作中的数据分析:要点与误区
再说一下工作中的数据分析,大家一定要记住一件事,数据分析始终服务于具体的应用场景。抛开应用场景谈数据分析,就失去了真正的价值,如果数据分析的过程和结果不能增加商业价值或提升运行效率、管理与决策效率,那么那些眼花缭乱的数据可视化、那些复杂的机器学习算法模型又有什么价值呢?所以,优秀的数据分析师:一是要懂技术,就是上面说的要会SPSS/Stata/Python,结合实际情况掌握起一门或者全部;二是要懂业务,所在行业、企业的主营业务,高层关注的重点事项要了解,这样数据分析才能精准,起到应有的智力支持作用;三是要会展示和表达,如果是书面展示,那么PPT等演示文稿以及必要的文字材料能力还是要具备的,如果是口头展示,那么必要的语言表达能力和演讲能力也是要有的。现在很多职场新人关于数字化技能有三个误区:一是过于追求数据可视化的炫酷、PPT的精美而忽视了数据分析的初衷和目的;二是不懂业务就去开展数据分析,导致数据分析南辕北辙,搞出来的东西不是高层所真正需要的;三是针对数据分析结果或者模型构建的情况不会用一般听众能够听得懂的语言表达出来,这些都是需要注意和避免的。
8.学习统计分析与数据科学应该看什么书?
针对Python数据分析或机器学习推荐两本入门级的图书:《Python机器学习原理与算法实现》(杨维忠张甜 著 2023年2月新书 清华大学出版社)《Python数据科学应用从入门到精通》(张甜 杨维忠 著 2023年11月新书 清华大学出版社)。这两本书的特色是在数据分析、机器学习各种算法的介绍方面通俗易懂,较少涉及数学推导,对数学基础要求相对不高,在python代码方面讲的很细致,看了以后根据自身需要选取算法、优化代码、科学调参。都有配套免费提供的源代码、数据文件和视频讲解,也有PPT、思维导图、习题等。
(1)《Python机器学习原理与算法实现》杨维忠 张甜编著 清华大学出版社 2023年 适用于Python基础教学、数据分析、数据挖掘与建模、机器学习等教学。内容非常详实,包含了Python和机器学习,相当于一次获得了两本书。在讲解各类机器学习算法时,逐一详解用到的各种Python代码,针对每行代码均有恰当注释(这一点基本上是大多数书目做不到的)。这本书在出版之前曾开发成9次系列课程,在恒丰银行全行范围类开展培训,490人跟随杨维忠老师上课学习(课程限报490人),培训完成后课程在知鸟平台上回放超过3万人次。很多银行员工通过这些学习一下子就学会了Python,并且用于工作中开展数据分析、机器学习、数据可视化等,这本书也被多家商业银行选做数字化人才培训教材,成为银行员工的一本网红书。
(2)《Python数据科学应用从入门到精通》张甜 杨维忠编著 清华大学出版社 2023年 适用于Python基础教学、数据分析、数据挖掘与建模、数据可视化、数据清洗等教学。旨在教会读者实现全流程的数据分析,并且相对《Python机器学习原理与算法实现》一书增加了很多概念性、科普性的内容,进一步降低了学习难度。国务院发展研究中心创新发展研究部第二研究室主任杨超 ,山东大学经济学院金融系党支部书记、副主任、副教授、硕士生导师张博,山东管理学院信息工程学院院长 袁锋 教授、硕士生导师,山东大学经济学院刘一鸣副研究员、硕士生导师,得厚投资合伙人张伟民等一众大牛联袂推荐。书中全是干货,买这一本书相当于一下子得到了5本书(Python基础、数据清洗、特征工程、数据可视化、数据挖掘与建模),而且入门超级简单,不需要编程基础,也不需要过多数学推导,非常适用于零基础学生。全书内容共分13章。其中第1章为数据科学应用概述,第2章讲解Python的入门基础知识,第3章讲解数据清洗。第4~6章介绍特征工程,包括特征选择、特征处理、特征提取。第7章介绍数据可视化。第8~13章介绍6种数据挖掘与建模方法,分别为线性回归、Logistic回归、决策树、随机森林、神经网络、RFM分析。从数据科学应用和Python的入门,再到数据清洗与特征工程,最终完成数据挖掘与建模或数据可视化,从而可以为读者提供“从拿到数据开始,一直到构建形成最终模型或可视化报告成果”的一站式、全流程指导。
(3)《SPSS统计学原理与实证研究应用精解》张甜 杨维忠编著 清华大学出版社,高度贴合学生使用SPSS开展实证研究、写论文所设计。
本书手把手教会使用SPSS撰写实证研究类论文或开展数据分析
常用统计学原理、实证研究的套路、调查问卷设计、信度分析、效度分析、T检验、ANOVA分析、相关性分析、回归分析、中介效应、调节效应、因子分析、聚类分析……一应俱全。
(4)《Stata统计分析从入门到精通》杨维忠 张甜编著 清华大学出版社 2022年 适用于Stata计量经济学、统计分析教学。国内计量大牛、山东大学陈强教授作序推荐,长期占据当当、京东、淘宝同类图书畅销榜前列。国内众多高校作为核心专业课程教材。
(5)《Stata统计分析商用建模与综合案例精解》杨维忠 张甜编著 清华大学出版社 2021年 适用于Stata计量经济学、统计分析教学。国内众多高校作为核心专业课程教材。在51CTO举办的“2021年度最受读者喜爱的IT图书作者评选”中,《Stata统计分析商用建模与综合案例精解》荣获“数据科学领域最受读者喜爱的图书TOP5”。
(6)《SPSS统计分析入门与应用精解(视频教学版)》杨维忠 张甜编著 清华大学出版社 2022年 适用于SPSS统计分析教学。同为国内计量大牛、山东大学陈强教授作序推荐,长期占据当当、京东、淘宝同类图书畅销榜前列。国内众多高校作为核心专业课程教材。
(7)《SPSS统计分析商用建模与综合案例精解》杨维忠 张甜编著 清华大学出版社 2021年 适用于SPSS统计分析教学。国内众多高校作为核心专业课程教材。在51CTO举办的“2021年度最受读者喜爱的IT图书作者评选”中,《SPSS统计分析商用建模与综合案例精解》荣获“数据科学领域最受读者喜爱的图书TOP5”。
京东、当当、淘宝各大平台均在热销中,搜索书名即可。
创作不易,恳请大家多多点赞支持!也欢迎大家关注我,让我们一起学习Stata、SPSS、Python知识。多谢!