Page 1

数据小兵

www.datasoldier.net

关注数据分析解决方案

当前位置: 首页 >> 工具方法 >> 正文 时间:2013-3-3 1:22:28

为什么选择 SPSS? 发布:数据小兵 | 分类:工具方法 |

即使多年以后,我确信依然能清晰的回忆与 SPSS 相识的第一眼,在学校 的地摊上,那些被用旧的课本被即将毕业的师哥师姐卖个垃圾价的时候,我发现 了这本后来影响我生活和工作的书,《SPSS11 统计分析教程基础篇》,不知道 是好奇还是被它红色的外观吸引,我捧起它看了一段,一个神奇的案例让我喷然 心动,原来我们的生活还可以充满有趣的数字和逻辑,后来,让我产生同样感受 的还有另外一本书,《Excel 数据建模与应用》,这本书我后面会着重推荐。

【业内最熟悉的名字】 博易智讯官网上有一段文字这样说:SPSS 是广大统计爱好者和市场分析人 员最熟悉的名字!没错,这里所说的 SPSS 就是你心里想的那一个。是一款在 调查统计行业、市场研究行业、医学统计、政府和企业的数据分析应用中久负盛 名的统计分析工具,也是世界上诞生最早的专业统计分析软件,产品被广泛应用 于市场研究、金融、销售数据分析和未来行为预测等领域。

数据小兵 | www.datasoldier.net

1


数据小兵

www.datasoldier.net

关注数据分析解决方案

它在国内外高校研究生中有着更深刻的威望与名誉:社科研究三大统计分析 软件之一!经它处理的数据结果的精确度可得到专家学者的一致认同。

【从 SPSS 到 PASW】 2000 年以前,开发者们一直使用“社会科学统计软件包”的首字母缩写,即 英文“Statistical Package for the Social Sciences”的四个首字母 SPSS 来简称他 们的作品,这个名字随着统计分析应用软件的推广,在社会上得到了广泛认可。 2000 年左右,SPSS 公司更新了自己的市场规划,同时更新了 SPSS 的名称含 义,虽然 SPSS 这四个字母没有变化,但是内涵却变化了,并且反应了时代的 特征和需求:SPSS 公司希望拓展产品服务领域,增强统计服务的深度。这次的 变动在市场上产生的影响并不大,因为大家所熟知的缩写没有变,变动的是英文 全称:“Statistical Product and Service Solutions”,即“统计产品与服务解决方 案”。 2009 年 4 月,SPSS 公司宣布再次更新自己的产品系列名称,这次变动基 本放弃了多年使用的 SPSS 四个字母,并且试图将各项产品归拢到统一的产品 线 中 来 。 PASW

全 面 覆 盖

SPSS , PASW

的 英 文 全 称 是

“Predictive Analytics Software”,中文翻译为“预测分析软件”。

【SPSS 的未来】 2009 年,在商业智能分析领域新闻头条:IBM 撤资 12 亿美元现金收购 SPSS。于此类似的头条还有:甲骨文以 33 亿美元的价格收购 Hyperion;SAP 以 48 亿欧元的价格收购 Business Objects。至此,商业智能市场格局发生改变, 朝着更清晰的方向改变。

在此之前,企业高管非常重视企业信息化建设,大搞 ERP、SCM、CRM, 这些巨无霸系统帮助企业和政府收集了海量的数据,最后却被底层业务人员评价 为“从今以后我们不用再做报表了”,是时候考虑商业智能了,IBM 收购 SPSS 华 丽转身就是很好的例子。 数据小兵 | www.datasoldier.net

2


数据小兵

www.datasoldier.net

关注数据分析解决方案

SPSS 的未来是整合,产品线将更加清晰,定位也无比的明确:实施预测, 辅助战略决策。 【我为什么选择 SPSS?】 事实上,关于 Excel、SPSS、SAS、STATA、R 在功能与应用上的比较已 经流传很多版本了,应该说他们都是这个行业里的佼佼者,各自具有其独特的魅 力和优势,把他们放在一起比较“谁更好”并不正确,讨论一下“谁更适合你”才是 最重要的。

我是非统计科班,也不熟悉计算机编程,我的需求是数据集的处理和分析挖 掘,Excel 可以帮助我管理底层的所有数据,高效的工作,快速的解决问题对于 我来说比炫耀高级技术更重要,我需要一个低调朴实、高效高质的软件,它无疑 就是 SPSS。 还有另外一个原因,熟悉 SPSS 的分析人员,可快速入门 Clementine,在 操作上有相辅相成的感受,如果熟悉 SPSS 而不更进一步去认识 Clementine, 说明现有知识转化和利用率不足。

Excel+SPSS+Clementine,这样一个组合对于非专业人士来说是一个不错 的选择。

数据小兵 | www.datasoldier.net

3


数据小兵

www.datasoldier.net

数据小兵精选特供

我为什么热衷于推荐 SPSS 时间:2015 年 1 月 13 日 | 栏目:

SPSS 课堂

| 作者: 数据小兵击: 1026 次

向数据分析爱好者推荐 SPSS 是我最喜欢干的事情,甚至给自己刻意地加上 SPSS 自由推广人的标签,啥叫自由推广,我的理解就是我把我认为有效的工具 和方法分享给大家,这个过程是我自己意愿支配,但不是强加给你。一句话概括, 因为 SPSS 实用。

数据分析,在大部分业务人员的意识层面,更多的是 Excel 而不是 SPSS。 职场办公必备绝对少不了 Excel,不过我觉得,SPSS 应当被给予同等待遇,我们 要像 Excel 那样使用和推广 SPSS。 使用 SPSS,带给我们统计概念和理念。 统计产品与服务解决方案,就像 SPSS 的名称一样,它天生就是为了统计而 来,可以理解为 IBM 公司推出的一系列用于统计学分析运算、数据挖掘、预测分 析和决策支持任务的软件产品及相关服务的 SPSS 总称。

数据小兵 | www.datasoldier.net

1


数据小兵

www.datasoldier.net

数据小兵精选特供

统计是我们日常数据分析的基础,统计学是数据挖掘或者说大数据的基础学 科,它给我的第一感觉是复杂科学,听到了头晕,用起来头痛。而 SPSS 的出现, 通过简单菜单界面的操作,让我们比较轻松的熟识了统计学知识,功莫大焉。 统计让我们洞悉数据本质,找到规律、规则。 从数据仓库、商业智能、到数据挖掘再到大数据,洞悉本质,找到规律,预 测未来这都是数据运用的终极目标。我认为统计学帮助我们完成此目标提供了一 套规范,各种统计量为我们描述数据提供了对比的标准,统计方法让我们能相对 科学的去理解和掌握数据的本质。肤浅认识,略有主观。 这里需要重点说的是,相对于 Excel 而言,使用 SPSS 会让我们距离统计更 近,因为使用 SPSS,由此我们需要掌握统计方法、理念,由此能采用科学的统 计观念来判断和解读数据。没有根据,仅是我个人对使用 Eexcel 和使用 SPSS 的感受,每个人可能理解不同,我希望这个观点最少导向是正确的。 当然,SAS、stata 等统计类软件也是同样的道理,SPSS 跟这些优秀者相比 最大的特色就是更菜单化,更傻瓜,更界面友好,我更喜欢把 Excel 理解为是优 秀的数据管理工具和优秀的业务报表工具。 我是如何学习 SPSS 统计分析工具的,请看这里。 相比 Excel,SPSS 的优势是有清晰的数据分析流程 按流程进行数据分析,会让一部分初学者、没有经验的人少走弯路。

Excel 在数据管理和汇总分析方面天下无敌,它就像一块大画布,可以不断 的调整格式,增加行列,excel 让中国式报表层出不穷变化多端。而一份 spss 数据,它留给我们更多是按照数据分析的流程一步一步的走下去,这个流程在哪 数据小兵 | www.datasoldier.net

2


数据小兵

www.datasoldier.net

数据小兵精选特供

里?熟知的人知道,它就在菜单里面,有经验的人知道,它就在你的心里,而这 每一步,SPSS 都为其提供了专属的分析方法和菜单操作。 用科学的理念,按流程办事,事情就变得标准化和规范化,所以,数据分析, 我极力推荐使用 SPSS 或者大型统计类软件工具。 内容原创,观点略主观,请参考,如有雷同请指出,转载请注明来源。

数据小兵 | www.datasoldier.net

3


数据小兵

www.datasoldier.net

关注数据分析解决方案

当前位置: 首页 >> 数据观点 >> 正文 时间:2013-11-13 23:2:37

我是如何学习 SPSS 统计分析工具的 发布:数据小兵 | 分类:数据观点 |

经常有朋友问我这样一个问题:有没有 SPSS 方面的精品教程,推荐几本。 这个问题总是让我很尴尬,因为我读过的 SPSS 书籍有限,没有办法逐个对比, 只能告诉他我读过的教程是个什么样子,最为关键的是,我一直认为,不管是哪 本教程,学习 SPSS 的核心只有一条,那就是实践。 不要跪求电子版,拿出勇气买本教程 有关 SPSS,最不忍心看到、听到的问题是“有没有电子版?“,估计你所在 的圈子也有同样的问题存在。虽然电子版大多是免费获得,减少了学习投入的成 本,但认真将整个电子版教程读完的朋友又有几个?寥寥无几吧。在电脑上通过 电子版教程学习,这个效率和效果我持怀疑态度。不得不说,我们的电脑正在变 为一个存储器,存储了太多你当时认为不可多得的稀缺资源,最终的结果是,它 们安安静静的占据了你的硬盘,而不是转换成为知识。

数据小兵 | www.datasoldier.net

1


数据小兵

www.datasoldier.net

关注数据分析解决方案

选一本内容丰富、案例详实的教程 SPSS 统计分析工具,在我的认识中,它本应该像 Excel 那样在国内流行和 熟知,因为它是一个基础的统计分析工具,拥有完备的数据分析方法体系。Excel 在国内的流行程度,让它成为电子表格的代名词,大批的教程、精品书在朋友圈 内横行,然而,在科研教学和商业实践中更为优秀的 SPSS 却没有它这么风光, 我只能汗颜。 对于一个基础的工具,如何来选择工具书呢?从内容方面,我建议选择内容 丰富,包含或者覆盖大部分功能的书,常见常用的分析方法一个也不能缺;从案 例方面,我建议选择案例详实,提供案例数据源,案例实操步骤,结果解析的书 籍。基本上,能满足这两个条件,筛选出的书应该不会差到哪里去,剩下的只有 靠学习者自己。 围绕一本教程,反复精读,并实践操作 选定一本教程,从头到尾一字不落地开始学习。在学习过程中,记录下每一 个遇到的问题,随时通过 SPSS 相关论坛、QQ 群等向熟悉的人请教,直到透彻。 每个分析方法,在文字学习的基础上,必须通过实际案例操作来实践,这一关环 节至关重要,SPSS 是一个工具,只要是工具的,都有一个特性,你使用过了, 就不会轻易忘记,没用过,总是难以深入理解和掌握。反复反复再反复,实践实 践再实践,这是我给出的建议,尤其是非科班出身的朋友。 加入 SPSS 论坛、QQ 群,去交流和学习 高手在民间,高手在论坛,目前 SPSS 有几个不错的论坛和 Q 群可供大家 前去交流和学习,大概提两个,一个是人大经济论坛的 SPSS 专版,另外一个 是中国统计网旗下的 Q 群。在这个组织里,你可以查找到大部分你希望知道的, 如果能坚持交流学习 1 年以上,我相信,SPSS 的学习必定能有非常高的提升。 不要再为 SPSS 软件下载烦恼了,这个问题本不该讨论 不得不再提一下这个问题,太多的朋友向我要 SPSS 各个版本的软件,这不是 一个轻松的话题。获取 SPSS 软件的途径非常多,可以向在高校的同学索要, 也可以去论坛下载,最直接的就是去找百度和谷歌,DB 的行情想必大家都清楚, 总之,我确定你总能找到下载的地址。如果还是为此烦恼,那请看博客首页,置 顶第一条,按照指示即可轻松获得。 是否需要分基础、高级,逐步学习? 为什么要学习 SPSS,这个问题自己需要搞清楚的。如果你重在掌握和熟悉 SPSS 统计分析,建议从基础开始,打好基础,逐步向高级过度,通过不断交流、 数据小兵 | www.datasoldier.net

2


数据小兵

www.datasoldier.net

关注数据分析解决方案

实践,总结,最终得到提升;如果只是在短时间内用到其中某个分析方法,比如 只为完成毕业论文,此时,建议直接从该分析方法开始,有针对性的,按照教程 步骤去练习实际案例,读懂分析结果,这样应付几个毕业论文是没有大问题的, 当然,多一技总是好的,多深入学习也无妨。 最后,上两张我学习过的教程图片,与朋友们共勉。

数据小兵 | www.datasoldier.net

3


数据小兵

www.datasoldier.net

数据小兵精选特供

问:学习 SPSS 软件前是否要了解统计学? 时间:2015 年 6 月 9 日 | 栏目: 小兵问答 | 作者: 数据小兵

一个网友在 QQ 群里忽然问我这个问题,学习 SPSS 软件前是否要了解统计 学?如题,答案是肯定的。

SPSS 是世界上最早诞生的统计方法运算工具,它的出现让晦涩的统计运算 变得简单和便捷,它提供了一种流程化和标准化的统计分析解决方案。 可以说,SPSS 是因统计学而生的,SPSS 的正确使用是基于严谨的统计分析 理论,作为 SPSS 的初学者,如果你本身了解或熟悉统计学,那么你掌握 SPSS 的程度和速度相对于其他人则更深和更快。 再转换一下角度,分阶段逐步深入学习 SPSS 软件,会令你越来越了解统计 学。统计学科班的同学们能体会这一点,纯粹的统计学是抽象枯燥,而伴随着某 一个统计分析工具来学习和实践统计理论,你会发现统计是那么的有趣味。 所以说,SPSS 软件工具和统计理论在学习过程中,小兵的观点是相辅相成 的。 学习统计学,我们可以用 SPSS 软件来实现和实践,从实践中进一步得到巩 固和提升;学习 SPSS 软件,我们需要统计学基础知识来促进理解、入门以及提 高,一个不懂统计理论的分析师,其 SPSS 统计结果往往比较僵硬。 作为初学者,SPSS 软件实操和统计学基础二者缺一不可。作为从业者,统 计理论基础+工具实操+业务实践,应至少具备这三点并且使其完美结合。

数据小兵原创,欢迎转载分享,请注明原创来源。

数据小兵 | www.datasoldier.net

1


数据小兵

www.datasoldier.net

数据小兵精选特供

学习 SPSS,要有小强精神 时间:2015 年 6 月 30 日 | 栏目: SPSS 课堂 | 作者: 数据小兵

从 2007 年开始,我已经陪 SPSS 玩了 8 年。从一个小菜鸟开始自学 SPSS 和 统计分析,直至数据分析、数据挖掘的基本知识。这期间,博客是伴我学习的最 主要阵地,记录学习过程、认识这个领域里的人,交流再到提升。 SPSS 是一个非常神奇的案头工具,跑一组数据的背后是探索一项业务问题, 从数据到规律,但并不是所有的分析项目都能得到价值信息,大多时候是枯燥、 反复的过程。想掌握 SPSS,没有统计分析和数据化思维就是白搭。

数据小兵 | www.datasoldier.net

1


数据小兵

www.datasoldier.net

数据小兵精选特供

统计是 SPSS 的基石,严谨的统计学思维和 SPSS 统计方法被滥用是两个矛盾 体,学习 SPSS 的人都会遇到这个问题。一边是简单易用的菜单式操作,另一边 是滴水不漏的统计基础,而 spss 傻瓜式的默认设置基本能完成大部分分析项目, 这极易造成统计分析方法被滥用,尤其是 SPSS 新手。 8 年 SPSS 经验,是不是就可以称得上是老手了?我觉得还远远不止,现在 数据挖掘也罢,大数据也罢,统计学作为基础学科对其未来发展衍变的影响不可 替代。学习 SPSS,没有高手低手之分,唯一的分别是使用 SPSS 的频率完全不同。 高校搞科研,一个工科的博士可能只需要 spss 来完成一篇论文,从此丢弃;而 一个真正的喜欢研究数据的人,可能视 spss 为知己,案头必备。

统计往深处讲,一入统计深似海。此处省略 n 字,我只讲一下发生在我身边 的事。由于我的博客专注于 SPSS 案例分享,多年坚持不懈吸引到很多读者,经 常遇到 SPSS 咨询,千奇百怪的问题,各种各样的业务环境,我觉得对某项统计 方法掌握的不错,实际上在和具体业务分析对接中,才发现有偏差,如何正确通 过统计思维和方法破解业务问题的数据规律更像是一门艺术。 很多初学者对我说:数据分析的门槛太高了,所以一直没有下决心行动起来。 这话是对的也是错的。为什么对?数据分析涉及统计基础、工具使用、可视化、 数据挖掘方法、数据化思维,尤其是如何与业务问题进行结合的实践经验,所以 说有一定的门槛。为什么不对?如果你的兴趣足够浓厚,一切困难都阻挡不了你 前进的脚步。

数据小兵 | www.datasoldier.net

2


数据小兵

www.datasoldier.net

数据小兵精选特供

说到最后这一句,不由想到了小强,都说打不死的小强,小强到底强到哪里? 蟑螂的历史有数亿年,而人只有几百万年;蟑螂在水下至少可以活上 30 分钟; 蟑螂的头断了以后,身子和头还可以分别活上好几天,最后的死因是饿死;蟑螂 拥有梯状神经系统,在大脑取出后,仍可以通过分布于身体各处的神经来控制运 动及生理功能,巨强。 学习 spss、学统计,学数据分析,就要有小强精神,不屈不饶,坚持不懈。 一入统计深似海,但我们还要从此不屈如小强。

数据小兵 | www.datasoldier.net

3


数据小兵

www.datasoldier.net

关注数据分析解决方案

当前位置: 首页 >> 工具方法 >> 正文 时间:2013-10-15 23:50:46

SPSS 统计分析软件、案例源数据下载地址 发布:数据小兵 | 分类:工具方法 |

博易智讯官网上有一段文字这样说:SPSS 是广大统计爱好者和市场分析人 员最熟悉的名字!没错,这里所说的 SPSS 就是你心里想的那一个。是一款在调 查统计行业、市场研究行业、医学统计、政府和企业的数据分析应用中久负盛名 的统计分析工具,也是世界上诞生最早的专业统计分析软件,产品被广泛应用于 市场研究、金融、销售数据分析和未来行为预测等领域。它在国内外高校研究生 中有着更深刻的威望与名誉:社科研究三大统计分析软件之一!经它处理的数据 结果的精确度可得到专家学者的一致认同。 [图说:通过 SPSS 信度分析进行调查问卷题目的优化] [SPSS 聚类分析:用于筛选聚类变量的一套方法] [Spss K-means 聚类分析案例——某移动公司客户细分模型] [SPSS 因子分析经典案例分享] [为什么选择 SPSS?] 【SPSS.16】统计分析软件,无需破解版,下载地址

点击此处去下载

【SPSS.17】多特软件站共享版下载地址

点击此处去下载

【SPSS.19】统计分析软件可破解版下载

点击此处去下载

【SPSS.16.17.18.19.20】案例数据、源数据下载地址

点击此处去下载

免责申明: 本站点提供的 SPSS 统计分析软件,及其案例源数据,均整理自网络,仅 供个人学习、交流使用,由此引发的软件版权及著作版权侵权等问题与本站点无 关。

数据小兵 | www.datasoldier.net

1


数据小兵

www.datasoldier.net

数据小兵精选特供

[和小兵学 SPSS]1:别把排序不当回事儿 时间:2014 年 12 月 28 日 | 栏目:

SPSS 课堂

| 作者: 数据小兵

前面一篇文章,刻意描述了一番 排序在数据分析过程中多么不简单 。排 序在发现最大和最小两个极值方面是最直接快速的。除此之外,排序在发现重复 值、缺失值、排名等问题上同样非常出色。

SPSS 如何做排序 有 15 名学生的语文、英语 2 门课程成绩,现在需要通过 SPSS 排序操作初步 了解这些学生各科成绩的排名情况。 1、按单个变量(excel 中表述为列)排序 (1)按照单列排序,找最大最小值

数据小兵 | www.datasoldier.net

1


数据小兵

www.datasoldier.net

数据小兵精选特供

和 excel 一样,spss 排序也有快捷操作,首先右键选中要排序的列“语文”, 选择“降序排列”,梁山众好汉的语文成绩排名结果上图,玉麒麟满分获得第一 名,李逵和花和尚两个同学语文成绩较差,还不够及格的。 (2)排序后总体观察有无异常值

SPSS 的菜单操作很出色,在“数据”菜单中选择“排序个案”,按照“英 语”成绩进行降序排列,结果如下图:

数据小兵 | www.datasoldier.net

2


数据小兵

www.datasoldier.net

数据小兵精选特供

神马?小李广同学外语成绩 551 分!100 百分制怎么可能会出现 551 分呢, 这一定是异常值了,在数据录入过程中经常出现类似的情况,经检测核对,小李 广实际成绩为 55 分。通过排序,发现了一例异常,另外发现有 3 位同学英语不 及格,分别是武松、霹雳火、小旋风。 2、按多个变量(excel 中表述为列)排序 (1)按照两列排序,关键点是抓住主要和次要变量。 我们更希望先掌握好自家本事,再学习别人的优点。语文是母语课程,评价 学生的学习情况,我们首先看其语文成绩如何,这是主要依据,外语作为次要依 据。

首先选择排序的主要依据“语文”,再选择次要依据“英语”,采用降序排 列。结果见下图:

数据小兵 | www.datasoldier.net

3


数据小兵

www.datasoldier.net

数据小兵精选特供

总体而言,语文和英语成绩有一定的相关性,有待其他方法验证。入云龙和 及时雨对自家本领和外国经验都掌握的很好,李逵兄弟的 2 门课程都比较差。 3、排序后,再给加上名次(rank),SPSS 中表述为秩 排名或名次在学科成绩中比较敏感,总是让读者能够印象深刻,作为数据分 析或展示,我们都希望观者能够敏锐的观察和记忆比较重要的数字。排序之后如 果再加上一列名次,记忆效果会更好。 在 excel 中,可以新增一列,然后通过自动填充按顺序完成排行。在 SPSS 中,则可以使用“个案求秩”来完成,我们可以把“秩”简单理解成顺序或名次。

数据小兵 | www.datasoldier.net

4


数据小兵

www.datasoldier.net

数据小兵精选特供

在“转换”菜单中,选择“个案等级排序”,选择“语文”成绩做为排名的 依据变量,第二步将语文成绩的最大值定义为第 1 名,第三步在“结”选项单中, 选择“顺序等级到唯一值”,由于翻译的小细节,导致第三步不易理解,大概意 思是:如果遇到相同成绩,则赋予相同的名次。

SPSS 自动生成和新增了一个变量“R 语文”,就是按照语文排序的名次变量, 可配合语文成绩一起观察。通过查看“R 语文”,语文成绩的排行榜一目了然。 4、特殊情况:SPSS 条件排序 对英语及格和低于 60 分的学生分别进行排名,或者我们只想对英语成绩达 到及格标准的学生进行排名。 (1)按照 60 分标准对英语成绩进行分段

数据小兵 | www.datasoldier.net

5


数据小兵

www.datasoldier.net

数据小兵精选特供

“转换”菜单中选择“可视化分箱”,选择“英语”作为要分段的变量。新 增变量“是否及格”,60 分以下划分为不及格,60 分及以上为及格,生成相应 的表情,最后会自动生成一个分段的变量。 (2)按照新增的“是否及格”变量将 15 名学生的数据拆分为两部分。

数据小兵 | www.datasoldier.net

6


数据小兵

www.datasoldier.net

数据小兵精选特供

在“数据”菜单中选择“拆分变量”功能,用“是否及格”作为拆分的依据, 将原数据拆分为两个组,即不及格组和及格组进行对比,接下来选择“按分组变 量排序文件”,则自动为拆分后的两个组进行排序操作。

上图是条件排序后的最终结果。 就如文章开头说得一样,排序在数据分析过程中只是一个小小的基础操作, 但它是我们快速了解数据整体情况的方法之一,不容忽略。同时,排序也是众多 高级数据分析方法的一个基础操作,拿到数据,养成良好的排序习惯,有助于快 速了解数据和推进数据分析过程的整体效率。 本文为 数据小兵 原创,转载请注明出处。

数据小兵 | www.datasoldier.net

7


数据小兵

www.datasoldier.net

关注数据分析解决方案

当前位置: 首页 >> 数据观点 >> 正文 时间:2013-2-15 20:52:10

按流程进行数据分析 发布:数据小兵 | 分类:数据观点 |

数据分析不是简单的“分析数据”,它是一种解决问题的方法,一个解决问题 的过程,甚至可以认为是一种方法观。作为一名数据分析工作者,这里所说的数 据分析是一个相对狭义的概念,如果没有合理的执行体系和标准化的工作流程, 就会形成表面化的错误,从而影响到工作效率,更重要的是影响最终的分析结论, 都说“按流程办事”,数据分析也不例外。

【1】明确目的

用数据说话,从数据分析的角度解决问题,用数据支持结论。从监测角度来 说,业务问题一般以两种方式出现,第一种是在长期监测中发现某一环节运行异 常,另外一种是在开展业务任务时即时遇到阻碍,不管怎么样,问题摆在面前需 要解决。

数据小兵 | www.datasoldier.net

1


数据小兵

www.datasoldier.net

关注数据分析解决方案

在开始数据分析之前,必须明确要分析什么,要解决什么问题,一项数据分 析,不是一蹴而就,需要过程,如果不能做到有的放矢,多半会导致分析方向发 生偏移,盲目无序的开头将导致后续的工作白白浪费。发生了什么?为什么要这 样做?要得到什么?如何得到?等等这些问题需要在分析之前弄清楚,只有先明 确了目的,对数据分析的主要内容有针对的了解,才能作出合理有效的解决方案。 【2】获取数据

按照数据分析的目的、具体内容,收集所需数据,此时最重要的是保证获取 数据的真实可靠性。这些数据源就像盖房子打地基,没有这个基础,不管采用多 么高级的分析方法都是白费力气。“garbage in,garbage out”。另外,不要过于 期望一口气将所有数据都采集全,在预处理和数据分析阶段你可能会发现还缺少 某一部分数据源,这是反馈调节的过程,需要耗费大量的时间反复甄别。 【3】预处理

数据小兵 | www.datasoldier.net

2


数据小兵

www.datasoldier.net

关注数据分析解决方案

现在存储于后台的数据太多了,以前做项目担心没有真实可靠的数据,现在 这个问题没有那么复杂,但数据太多却引发了其他问题。辛苦采集到的数据口径 不一致,存储格式不同,不符合数据分析要求还有待派生新的变量,这些过程看 似简单却非常有必要! 仅仅预处理以上这些问题还不够,当数据分析方法复杂时,我们还需对采集 的数据进行筛选构成小的数据集,对于数据集中变量的分布、缺少、描述统计指 标进行一定程度的分析。可以说,获取数据+预处理将耗费整个执行过程的大部 分时间,很繁琐,但非常的重要。 【4】数据分析

在这个阶段建议采用简单有效的分析方法,切记不要“为了分析而分析”。数 据分析方法有很多种,不一定越是高级的方法就越有效。数据分析的工具也一样, 能用 Excel 就不用 SPSS,选择合理得当高效的方法和工具,只要能解决问题即 可。如果你很自信,可以合理选择有效驾驭,那选用一些高级的方法和工具对提 高整个数据分析过程的权威性、专业性、精确性都有非常之大的帮助。 和前两个环节一样,这个过程也是费力不讨好的,而且伴有枯燥、沮丧、焦 虑等心态,不断调整自己的心态也是这三个阶段的重点和关键。

【5】提交报告

数据小兵 | www.datasoldier.net

3


数据小兵

www.datasoldier.net

关注数据分析解决方案

做一个数据分析的项目,不能不下结论! 雷声大,雨点小的事情,作为数据分析师千万要避免发生。提交数据分析报 告,提出解决问题的方案或建议,对业务问题进行及时处理,养成这个良好的习 惯。数据分析报告采用 PPT 格式、Word 格式都可以,做到结构合理、结论坚定, 图文并茂。 这个阶段切记不要搞得太花哨,语气低调不要太夸张,有自己的结论,有自 己的观点,能有效解决问题,并针对类似问题进行监控,防止再次发生。

按流程办事的好处就在于各环节的不断反馈,出现偏差时返回到各个环节进 行审核优化,突出解决问题的主线,总之一句话,数据分析不是儿戏, 需要一 个相对标准化的流程来遵循。

数据小兵 | www.datasoldier.net

4


数据小兵

www.datasoldier.net

数据小兵精选特供

数据分析不是为了写一份报告 时间:2015 年 2 月 1 日 | 栏目:

数据运营

| 作者: 数据小兵

今天这篇文章的直接原因,是为了校正之前发表的“按流程进行数据分析” 一文的部分观点。

文中简单描述了数据分析流程:明确分析目的;按照数据分析的目的、具体 内容,收集所需数据;对数据进行初步的质量筛查;运用合理的数据分析方法进 行分析;最后得到分析的结论,撰写解决问题的建议性报告。

乍读,这个流程好像没什么问题,再读,上面所讲的流程可能更适合调研性 工作,提供基于数据分析的解决办法,严格来讲,这个流程遗漏了最为宝贵的环 节,没有将数据分析的结论应用到实践中。换句话讲,就是为了报告而分析!

数据小兵 | www.datasoldier.net

1


数据小兵

www.datasoldier.net

数据小兵精选特供

为什么要进行数据分析?肯定不是为了报告。数据分析报告仅是其中的一部 分,更为重要的是将数据分析得到的模型或者建议付诸实践,在应用过程中不断 的反馈并对模型进行优化调整,最终使业务得以提升,这可能是一个不断往复优 化的迭代过程。

数据分析流程,严谨点来说,可以参考 CRISP-DM(跨行业数据挖掘标准流 程),如上图所示,它将整个数据挖掘过程分解为商业理解、数据理解、数据准 备、建立模型、模型评估和结果部署 6 个步骤。CRISP-DM 认为,数据挖掘过程 是循环往复的探索过程,6 个步骤在实践中并不是按照直线顺序进行,而是在实 际项目中经常回到前面的步骤进行不断优化调整。

数据小兵 | www.datasoldier.net

2


数据小兵

www.datasoldier.net

数据小兵精选特供

商业理解:理解项目目标和从业务的角度理解需求,同时将商业问题转化为 数据挖掘问题,并制定完成目标的初步计划。 数据理解:从初始的数据收集开始,通过一预处理分析,目的是了解和掌握 数据概况,识别数据的质量问题,发现数据的内部属性,或是探索有趣的数据集。 数据准备:涵盖了从原始粗糙数据中构建最终数据集(将作为建模工具的分 析对象)的全部工作。数据准备工作有可能被实施多次,而且其实施顺序并不是 预先规定好的。这一阶段的任务主要包括:制表,记录,数据变量的选择和转换, 以及为适应建模工具而进行的数据清理等等。 构建模型:选择和应用不同的模型技术,模型参数被调整到最佳的数值。比 较典型的是,对于同一个数据挖掘的问题类型,可以有多种方法选择使用。一些 建模方法对数据的形式有具体的要求,因此,在这一阶段,重新回到数据准备阶 段执行某些任务有时是非常必要的。 模型评估:进行最终的模型部署之前,更加彻底的评估模型,回顾在构建模 型过程中所执行的每一个步骤,是非常重要的,这样可以确保这些模型是否达到 了企业的目标。 数据小兵 | www.datasoldier.net

3


数据小兵

www.datasoldier.net

数据小兵精选特供

模型部署:模型的创建并不是数据分析的最终目的。模型的作用是从数据中 找到知识,获得的知识需要便于用户使用的方式重新组织和展现。根据需求,这 个阶段可以产生简单的报告,或是实现一个比较复杂的、可重复的数据挖掘过程。 在很多案例中,这个阶段是由客户而不是数据分析人员承担部署的工作。

数据小兵 | www.datasoldier.net

4


数据小兵

www.datasoldier.net

关注数据分析解决方案

当前位置: 首页 >> 工具方法 >> 正文 时间:2013-5-22 22:48:47

SPSS 典型相关分析案例 发布:数据小兵 | 分类:工具方法 |

相关分析,两个变量之间密切程度的一种常见统计分析方法,能够简单有效 说明两变量间存在什么关系,这些关系的常见描述语句有:线性相关、正相关、 负相关等。 【数据集说明】

某公司员工的基本情况,数据集含 3 列,分别为:性别、年龄、工资,现在 希望了解员工年龄和工资水平之间的关系(企业人事部门的读者可关心一下)。

【SPSS 相关分析过程】 1、菜单操作:分析、相关、双变量

数据小兵 | www.datasoldier.net

1


数据小兵

www.datasoldier.net

关注数据分析解决方案

2、结果

相关分析的原假设是两两之间不相关,现在 sig=0.002,原假设不可能发生,即得出年龄与 工资水平有极显著的相关关系,且随着年龄的增加,工资会逐渐下降,老无所养吧。这个结论苍 白无力,即使不用统计分析,看看身边的人其实也能想差不多明白。

3、再提高一步 在探索性数据分析阶段,分组对比分析非常重要,在分组变量的细分之下,往往能够发现意 想不到的结论。我们讨论一下不同性别的员工,其年龄和工资的关系,男女在这方面有区别吗? (1)首先用性别变量将数据集拆分为男女两部分:数据,拆分文件

(2)继续进行相关分析步骤,结果如下:

数据小兵 | www.datasoldier.net

2


数据小兵

www.datasoldier.net

关注数据分析解决方案

可见,实际上是女性的年龄与工资水平有着极显著的负相关关系,而男性却不存在这样的关 系,在实际工作生活当中,这个结论也基本符合实际。 【相关分析可视化效果】 表不如图,最能体现相关关系的图是散点图。

数据小兵 | www.datasoldier.net

3


数据小兵

www.datasoldier.net

关注数据分析解决方案

通过散点图,可以在相关分析之前对两者之间的关系做一个相对比较直观的 判断,如果得到相关分析的验证,效果更佳。

总结语:

1、相关分析属于数据分析流程前端的探索性分析,探究变量间关系及性质, 其结果在于指导下一步采取何种方法,是数据挖掘之前的基础工作;

2、两两之间有相关关系,但不一定是因果关系,也可能仅是伴随关系,反 过来,两两之间存在因果关系,那么两者之间必然相关; 3、相关分析之前,有必要搞清楚变量的类型,根据具体类型选择合适的相 关系数。Pearson 相关系数适用于两变量的度量水平都是尺度数据,并且两变量 的总体是正态分布或者近似正态分布的情况,还有说法认为其样本量应大于 30, 可供参考,在这些条件之外的,考虑选择 spearman 系数或者 kendall 系数。

4、分组对比分析是发现问题的好方法; 5、散点图是相关分析的最直接有效的可视化方法。

数据小兵 | www.datasoldier.net

4


数据小兵

www.datasoldier.net

关注数据分析解决方案

当前位置: 首页 >> 工具方法 >> 正文 时间:2013-8-1 22:38:34

分类变量的相关分析 发布:数据小兵 | 分类:工具方法 |

相关分析 简单吗?提起相关分析,很多人的第一意识就是简单,因为它是 统计的基础操作,许多分析方法都涉及到相关。其实不然,我们经常提到的仅是 连续变量之间的相关,那么,类别变量的相关分析要如何去做呢? 案例数据说明

有一份电信用户数据,其中包含 2 个分类变量:套餐类型和是否流失。套餐 类型变量有 4 个分类值,分别为基础服务、电子服务、附加服务、全服务;是否 流失变量包括流失 Yes 及未流失 No。现在我们需要分析分类变量“套餐类型” 和“是否流失”之间的关系。

图形化解决方案——网络图 网络图适合多分类型变量之间的相关分析,是一种更为生动和直观地展示两 个或多个分类型变量相关特征的图形。图形由节点和节点间的连线组成,每个节 点对应一个分类取值,连线代表两个分类变量不同类型的组合。

数据小兵 | www.datasoldier.net

1


数据小兵

www.datasoldier.net

关注数据分析解决方案

根据图形,最细连线代表 44 人,最粗连线代表 237 人,可见 Plus service(附 加服务套餐)节点和未流失节点之间的连线最粗,选择附加服务套餐的用户相对 而言比较忠实,而选择基本服务类型的用户保持情况不如选择附加服务的用户保 持情况理想。以上过程可采用 Clementine 的 web 节点实现。 数值型解决方案——交叉表分析 图形化方法并不能正确反映两分类变量之间的相关程度,因此精细的数值分 析是必要的。两分类变量之间的相关分析通常采用交叉表分析,或称为列联表分 析方法。包括两部分,第一,两分类变量交叉计算和对比频数,第二,在交叉表 的基础上利用卡方检验衡量二者之间的关系。 1、交叉表频数对比分析的解读

数据小兵 | www.datasoldier.net

2


数据小兵

www.datasoldier.net

关注数据分析解决方案

由表可知,用户总体保持率 72.6%,流失率 27.4%,用户保持情况不太理想。 总体而言,样本量较小的情况下,四种套餐的占比分布情况不甚明了。 其中最突出的是,附加服务的客户忠诚度相对较高,保持率达到 84.3%,高出总 体保持率,流失率在四个套餐中最低,仅 15.7%,低于总体流失率。可见,不同 类型套餐用户的保持和流失存在差异。 因此说,客户流失与套餐类型是相关联的。

2、卡方检验解读

卡方检验原假设:行与列分类变量相互独立,没有相关关系。由卡方检验表 看出,其 sig 值为 0.000,小于小概率事件的界定值 0.01,由小概率事件不发生 可以知道,原假设即二者独立这个说法是不合理的,也就是说套餐类型和客户流 失是有极显著的相关关系。

以上交叉表分析可利用

SPSS 实现。

参考自薛薇、陈欢歌老师著《基于 Clementine 的数据挖掘》

数据小兵 | www.datasoldier.net

3


数据小兵

www.datasoldier.net

关注数据分析解决方案

当前位置: 首页 >> 图说数据 >> 正文 时间:2013-12-31 8:45:5

图说:突破相关分析的关键,控制第三者 发布:datasoldier | 分类:图说数据 |

相关分析(correlation analysis),相关分析是研究现象之间是否存在某种 依存关系,并对具体有依存关系的现象探讨其相关方向以及相关程度,是研究随 机变量之间的相关关系的一种统计方法。也是学习统计分析最早接触的一个分析 方法,往往被认为简单易懂,易于理解和操作,但实际过程中,如何判断相关与 因果的关系,决定着相关分析从来就不是平庸的。

读者您好,这篇博文中的图片较长,不易在 多张文档中显示。放大并读图的办法:

1:鼠标右键图片,将图片另存至桌面,即 可放大查看; 2:点击博文的标题,直接进入网页地址查 看,标题中内嵌有超链接。

感谢原创:@数据分析与数据挖掘 @数说工作室

(微博名)

数据小兵 | www.datasoldier.net

1


数据小兵

www.datasoldier.net

数据小兵精选特供

如何用 SPSS 做数据正态化转换? 时间:2015 年 6 月 16 日 | 栏目: SPSS 课堂 | 作者: 数据小兵

数据不完全符合正态分布,接下来的问题是,很多学科都在讲大样本不用太 考虑正态分布问题,但事实上由此造成的误差确实存在,有时还会比较大。那么 如何用 SPSS 做数据正态化转换呢?

严格说来,解决这个问题需要讲四个方面: 什么是正态转换? 为什么做正态转换? 何时做正态转化? 如何做正态转化? 我担心如果只讲 How(如何做),也许有些初学者不分场合,误用滥用。但 是,我同样担心如果从 ABC 讲起,难免过分啰嗦,甚至有藐视大家的智商之嫌。 所幸现在是互联网时代,有关上述 What, Why, When 问题的答案网上唾手可得。 如果对这些问题不甚了了的读者,强烈建议先到 google 上用“How to transform data to normal distribution"搜一下(或点击下面的“前 10 条”),前 10 条几乎每篇都是必读的经典。 有了上述交代,我们可以比较放心地来讨论如何做正态转换的问题了。具体 来说,涉及以下几步: 第一步 查看原始变量的分布形状及其描述参数(Skewness 和 Kurtosis)。这可以 用频率或者描述性统计或者 BoxPlot; 第二步 根据变量的分布形状,决定是否做转换。这里,主要是看一下两个问题: 数据小兵 | www.datasoldier.net

1


数据小兵

www.datasoldier.net

数据小兵精选特供

1、左右是否对称 也就是看 Skewness(偏差度)的取值。如果 Skewness 为 0,则是完全对称 (但罕见);如果 Skewness 为正值,则说明该变量的分布为 positively skewed (正偏态,见下图 1b);如果 Skewness 为负值,则说明该变量的分布为 negatively skewed(负偏态,见图 1a)。然而,肉眼直观检查,往往无法判断偏态的分布 是否与对称的正态分布有“显著”差别,所以需要做显著性检验。如同其它统计 显著性检验一样,Skewness 的绝对值如大于其标准误差的 1.96 倍,就被认为是 与正态分布有显著差别。如果检验结果显著,我们也许(注意这里我用的是“也 许”一词)可以通过转换来达到或接近对称。见注解 1 的说明。

2、峰态是否陡缓适度 也就是看 Kurtosis(峰态)是否过分 peaked(陡峭)或过分 flat(平坦)。 如果 Kurtosis 为 0,则说明该变量分布的峰态正合适,不胖也不瘦(但罕见); 如果 Kurtosis 为正值,则说明该变量的分布峰态太陡峭(瘦高个,见图 2b); 反之,如果 Kurtosis 为负值,该变量的分布峰态太平缓(矮胖子,见图 2a)。 峰态是否适度,更难直观看出,也需要通过显著检验。如同 Skewness 一样, Kurtosis 的绝对值如果大于其标准误差的 1.96 倍,就被认为与正态分布有显著 差别。这时,我们也许可以通过转换来达到或接近正态分布(峰态)。

数据小兵 | www.datasoldier.net

2


数据小兵

www.datasoldier.net

数据小兵精选特供

第三步 如果需要做正态化转换,还是根据变量的分布形状,确定相应的转换公式。 最常见的情况是正偏态加上陡峰态。 1、如果是中度偏态 如 Skewness 为其标准误差的 2-3 倍,可以考虑取根号值来转换,以下是 SPSS 的指令(其中"nx"是原始变量 x 的转换值,参见注 2): COMPUTE nx=SQRT(x) 2、如果高度偏态 如 Skewness 为其标准误差的 3 倍以上,则可以取对数,其中又可分为自然 对数和以 10 为基数的对数。以下是转换自然对数的指令(注 2): COMPUTE nx=LN(x) 以下是转换成以 10 为基数的对数(其纠偏力度最强,有时会矫枉过正,将 正偏态转换成负偏态,注 2): COMPUTE nx=LG10(x) 上述公式只能减轻或消除变量的正偏态(positive skewed),但如果不分青 红皂白(即不仔细操作第一和第二步)地用于负偏态(negative skewed)的变 量,则会使负偏态变得更加严重。如果第一步显示了负偏态的分布,则需要先对 原始变量做 reflection(反向转换),即将所有的值反过来,如将最大值变成 最小值、最小值变成最大值、等等。如果一个变量的取值不多,可用如下指令来 反转: RECODE x(1=7)(2=6)(3=5)(5=3)(6=2)(7=1) 如果变量的取值很多或有小数、分数,上述方法几乎不可能,则需要写如下 的指令(不知大家现在是否信服了为什么要学 syntax 吗?): 数据小兵 | www.datasoldier.net

3


数据小兵

www.datasoldier.net

数据小兵精选特供

COMPUTE nx=max-x+1,其中 max 是 x 的最大值。 第四步 回到第一步,再次检验转换后变量的分布形状。如果没有解决问题,或者甚 至恶化(如上述的从正偏态转成负偏态),需要再从第二或第三步重新做起,然 后再回到第一步的检验,等等,直至达到比较令人满意的结果(见注 3)。

数据正态化的特别注解 1、如同其它统计检验量一样,Skewness 和 Kurtosis 的的标准误差也与样 本量直接有关。具体说来,Skewness 的标准误差约等于 6 除以 n 后的开方(根 号喜下 6/n),而 Kurtosis 的标准误差约等于 24 除以 n 后的开方(根号下 24/n), 其中 n 均为样本量。由此可见,样本量越大,标准误差越小,因此同样大小的 Skewness 和 Kurtosis 在大样本中越可能与正态分布有显著差别。这也许就是 SW 在问题中提到的“很多学科都在讲大样本不用太考虑正态分布问题”的由来。我 的看法是,如果小样本的 Skewness 和 Kurtosis 是显著的话,一定要转换;在大 样本的条件下,如果 Skewness 和 Kurtosis 是轻度偏差,也许不需要转换,但如 果严重偏差,也是要转换。 2、大家知道,根号里的 x 不能为负数,对数或倒数里的 x 不能为非正数(即 等于或小于 0)。如果你的 x 中有是负数或非正数,需要将其做线性转换成非负 数(即等于或大于 0)或正数(大于 0),如 COMPUTE nx = SQRT (x - min) 或 COMPUTE nx = LN (x - min + 1),其中的 min 是 x 的最小值(为一个非正数)。 3、不是任何分布形态的变量都可以转换的。例外之一是“双峰”或“多峰” 分布(distribution with dual or multiple modality),没有任何公式可以 将之转换成单峰的正态分布。 文章精选自道客巴巴文库(http://www.doc88.com/p-841519447004.html), 原作者不详,本文由数据小兵最终整理发布,如有侵权,请联系博主。 正态分布相关文章推荐阅读

正态分布检验是怎么回事 http://www.datasoldier.net/post/zhengtai.html

数据小兵 | www.datasoldier.net

4


数据小兵

www.datasoldier.net

关注数据分析解决方案

当前位置: 首页 >> 工具方法 >> 正文 时间:2013-11-17 22:11:57

正态分布检验是怎么回事 发布:数据小兵 | 分类:工具方法 |

什么是正态分布? 正态分布是在统计分析最广泛应用的一类分布,自然界、社会、科研、生活、 生产中的很多现象都被发现近似地服从正态分布,它无处不在,让你在纷繁芜杂 的数据背后看到隐隐的秩序。主要指变量的频数或频率呈中间最多,两端逐渐对 称地减少,表现为钟形的一种概率分布,具体的数学公式就不再提了。

为什么要进行正态分布检验? 假设检验可分为正态分布检验、正态总体均值分布检验、非参数检验三类。 正态分布检验,即判断一样本所代表的背景总体与理论正态分布是否没有显著差 异的检验,具有最重要的意义,也是应用最为广泛的检验方法。许多统计过程均 依赖于总体正态性,是参数统计分析的前提。 提醒大家:对数据进行正态性检验时,大部分数据都会拒绝正态分布假设, 只要数据样本大,数据接近正态分布即可接受。 SPSS 如何进行正态分布检验? SPSS 中有很多操作可以进行正态检验,主要包括 P-P 概率图法、Q-Q 概 率图法、峰度偏度计算法以及其他统计量的计算判断方法,今天推荐全面且高效 的方法。即:

SPSS 描述统计探索分析过程,计算峰度、偏度及输出 Q-Q 概率图形 (1)主要步骤:案例数据下载 欢迎关注 分析——描述统计——探索分析 绘制——直方图(带检验的正态图) (2)关于峰度 Ku 和偏度 Sk 的判断: Sk=0,Ku=0 时,分布呈正态,Sk>0 时,分布呈正偏态,Sk<0 时,分布呈 负偏态,Ku>0 曲线比较陡峭,Ku<0 时曲线比较平坦。

数据小兵 | www.datasoldier.net

1


数据小兵

www.datasoldier.net

关注数据分析解决方案

描述中有峰度系数和偏度系数,根据上述判断标准,数据不符合正态分布。 本数据分布为正偏态,较陡峭。 (3)Q-Q 概率图 如果样本数据服从正态分布,则样本点应该围绕在第一象限的对角线上,对 角线为标准正态分布理论线,否则不符合正态分布。

数据小兵 | www.datasoldier.net

2


数据小兵

www.datasoldier.net

关注数据分析解决方案

根据 Q-Q 概率图,明显看出本案例数据不符合正态分布,也印证了前面峰 度和偏度的结果。 以上分析过程是 SPSS 中能提供的比较全面,效率较高的正态检验方法。 其他方法不再详细介绍,可参考 SPSS 相关教程。 不完全符合正态分布应该怎么办? 如果深究下去,你会发觉正态分布是最不讲理的分布,因为许多统计分析方 法,都是基于正态分布的假设条件下的,而现实中完全的正态分布存在较少,大 多是有偏态的,这时候怎么办,不符合正态分布,意味着不符合许多统计分析方 法的适用条件,不少人在这个地方感动无奈和沮丧。

我的建议,深入研究你期望使用的统计分析方法,查看它适用条件的严苛程 度,比如方差分析,它有“样本独立”“正态”“方差齐”的条件,首先,我们判断出方 差分析对“样本独立”的条件是最为严苛的,但这个条件基本都满足,同时,我们 了解到方差分析模型本身的稳定性比较好,所以,可以认为,在样本充足的状况 下,因变量不过分的偏态(非完全正态),是可以接受的。 总结一句:对于正态分布检验的使用,应结合具体的统计分析方法,判断它 对于正态检验的严苛程度,如果这个条件不允许“近似”,必须严谨对待,则考虑 使用非参数检验。如果统计分析模型建模相对稳定,则可以考虑适度的降低对正 态分布的严苛程度。供参考。 [我是如何学习 SPSS 统计分析工具的] [SPSS 移动平均一点也不神秘] [SPSS 统计分析软件、案例源数据下载地址] [SPSS 用于正交试验优化设计及其方差分析] [Spss K-means 聚类分析案例——某移动公司客户细分模型] [为什么选择 SPSS?]

数据小兵 | www.datasoldier.net

3


数据小兵

www.datasoldier.net

数据小兵精选特供

T 检验:公司培训产生效果了吗? 时间:2015 年 4 月 23 日 | 栏目: SPSS 课堂 | 作者: 数据小兵

培训作为人力资源开发的主要手段,是企业能力提升的基础,是员工接受“再 教育”的主要形式。但是,在大多数企业中,培训一直处于无足轻重的地位,往 往是“说起来重要,干起来次要,忙起来不要”。为什么会出现这种情况?主要 原因就在于培训作为一种新形式的人力资本的投资,它的投资成果即培训效果很 难通过直观手段检测出来,从而很容易在人们头脑中形成一种误解,使人们对培 训后的效果产生怀疑,进而形成连锁反应,使企业更加不注重员工的培训。

假设检验所要评价的是有关培训效果的显著性问题。目前很多人在进行效果 评价时,只是简单地把成本和收益进行比较,认为只要培训成本小于培训后所获 收益,即认为该培训计划可行。甚至目前国内很多教材在有关“可行性研究”问 题上也是简单沿用这一原理,很少有人针对实际情况作进一步探讨。当然,从理 论上讲,这种分析思路是正确的,但在现实生活中,则往往必须查其有效性程度, 有效性是否显著?显著性如何?严格地讲,一项显著性很小的培训计划实际上无 异于一项失败的培训计划。 企业培训效果显著性检验 案例说明

数据小兵 | www.datasoldier.net

1


数据小兵

www.datasoldier.net

数据小兵精选特供

某企业为提高产品生产产量,决定对部分职工进行为期三个月的培训。为了 了解培训效果如何,从经过培训的职工和未经过培训的职工群体中各随机地抽取 10 名

(假设这两组成员在培训前的个体差异很小,甚至没有。当然,如果该企

业的前期工作做得比较细致的话,也可直接对比其记录的受试人培训前后的产品 产量,这样就从实际上排除了个体差异),记录当月产量(如下表所示)。又假 定这两组职工的实际产量均近似地服从正态分布。 培训前 500 495

510

498

489

512

501

495

478

504

培训后 508 498

510

509 500

506 512

504

490

505

现在我们要求通过这些统计数据来判断该企业的培训效果,也就是说检验培 训对职工产量提高有无显著性影响。 用 SPSS 解决这个问题: 1、录入培训前后产量数据

2、默认方式选用 SPSS

Paired_Samples

T-test

数据小兵 | www.datasoldier.net

2


数据小兵

www.datasoldier.net

数据小兵精选特供

3、结果解读

成对样本的测试结果有显著性的线性关系,简单相关系数为 0.910,说明相 关性强。双边概率 P=0.003;因此拒绝 H0,即认为未经过培训与经过培训的职工 工作水平有显著性差异。 4、总结 由上述两种分析方法可知:至少有 95%的把握认为培训对职工产量提高有 显著性影响,培训效果显著,达到了预期目的。在不考虑其他条件的情况下,对 企业管理人员而言,这些信息已足够支持他做出决策。

数据小兵 | www.datasoldier.net

3


数据小兵

www.datasoldier.net

数据小兵精选特供

如果您认为小兵博客的内容有价值,对你有帮助,可用支付宝扫一扫右侧的 二维码进行少额打赏支持。认准支付宝账号:dtminer@163.com。

数据小兵 | www.datasoldier.net

4


数据小兵

www.datasoldier.net

关注数据分析解决方案

当前位置: 首页 >> 数据观点 >> 正文 时间:2013-11-24 10:58:8

陈哲老师《贤内助》有感:数据分析的深度 发布:数据小兵 | 分类:数据观点 |

陈哲老师新作品《数据分析,企业的贤内助》,一改以往书品的苦涩,以白 话小说的方式,有血有肉的讲述数据分析在企业决策中所发挥的作用。第三章内 容猛料很多,提到五度数据分析的理念,今天,仅就数据分析的深度一篇稍作修 改,转载此处,以向《贤内助》的出版发行表述祝贺。 场景设计 你是 A 卖场的数据分析师,你期望向 Boss 提交一份报告以表明当前所遇到 的问题以及如何入手解决。你为此做了调查问卷,收集到有关 A 卖场及临近卖 场 B 的顾客满意度情报数据。 卖场有哪些问题? 1、先从 A 卖场内部角度看顾客满意度评价

数据小兵 | www.datasoldier.net

1


数据小兵

www.datasoldier.net

关注数据分析解决方案

(1)最大、最小值法:快速定位最好与最差,尤其是最差的。 卖场服务满意度水平 9.23,最好,卖场宣传指标只有 7.86,最差,迅速反映出 一个问题点,酒好也怕巷子深,卖场的宣传工作最需要赶上。 (2)与指标的标准对比:给指标指定一个评价的标准。 10 个量表的满意度,卖场对 7 个指标的评价标准是达到 8 以上即为内部满 意。各指标值与 8 一一相比,可见,仍然是宣传不达标,卖场店员的满意度也应 关注。 2、再从 A 卖场竞争对手角度看差距

发现差距的最好办法是和竞争对手相比而不是内部沾沾自喜。如果只从 A 卖场内部考量,看上去顾客满意度也没有太多的问题,内部相比的缺点就是看不 到与别人的差距,因此需和竞争对手来比较。很显然,与 B 卖场相比,在品类 宣、传两个方面,A 卖场还比较差。 3、《贤内助》:增加指标重要性维度,用矩阵分析来解决“哪些问题需要优 先解决” (1)由卖场领导层及其他主要职能部门联合,针对 7 个满意度评价指标进 行重要性排序,并赋予权重,重要性结果依次为(品类 0.74,环境 0.71,位置 0.68,宣传 0.65,店员 0.62,服务 0.54,价格 0.50)。 (2)以满意度维度为横轴,重要性维度为纵轴制作散点矩阵分析图。

数据小兵 | www.datasoldier.net

2


数据小兵

www.datasoldier.net

关注数据分析解决方案

综合两个维度,那些重要且满意度较低的指标就是卖场目前最急需优先改进 的地方。如:卖场宣传满意度、店员满意度。

同样,利用两个维度的散点矩阵,还可以清晰的看到 A 卖场和竞争多少的 差距在哪。如:宣传不及、品类也不及竞争对手。 从何处入手解决问题?找到底层指标 分析师基本已经明晰了卖场目前的问题所在,下一步需要考虑从何入手加以 解决问题。 1、深入剖析“顾客对 A 卖场宣传满意度不满的原因是什么”。 数据小兵 | www.datasoldier.net

3


数据小兵

www.datasoldier.net

关注数据分析解决方案

由宣传维度入手,查看细分指标,在调查问卷中宣传维度下设细分指标有: 广告美誉度、宣传类型、宣传易接触度、宣传覆盖面、宣传频率、广告代言人 7 个细分指标。

显而易见,在“宣传”的细分指标中,宣传覆盖面被管理层所看重但满意度最 低,急需解决,接下来依次是广告美誉度和宣传频率。 2、如何针对不同的顾客提高满意度评价? 要提升顾客满意度,就要知道不同顾客在重点考虑因素方面是否存在差异以 及差异具体有哪些。是否存在差异,可以通过方差分析来判断。

方差分析结果很明确,不同城市在考虑因素方面存在显著差异,因此在具体 如何入手提供不同顾客满意度水平时需要区分不同的地域。

数据小兵 | www.datasoldier.net

4


数据小兵

www.datasoldier.net

关注数据分析解决方案

不同城市顾客考虑因素的差异在哪里?以上是对应分析给出的精准结果,顾 客所在的城市分为三类:北方城市、中部城市和南方城市。北方城市的顾客更关 注店面环境、促销价格等因素;南方城市更关注卖场的口碑、实力、知名度等因 素;中部城市更关注售后服务、店面面积等因素。

经此深入的挖掘探索,通过维度向细分指标下沉,逐层深入钻取,一直找到 可落地执行的关键节点为止。从这个过程中,我们不难体会数据分析的深度,以 及它为解决问题提供的思路和方法,值得不断的学习和实践。 在此,祝贺@数据小宇军《数据分析,企业的贤内助》一书的出版。

数据小兵 | www.datasoldier.net

5


数据小兵

www.datasoldier.net

关注数据分析解决方案

当前位置: 首页 >> 数据观点 >> 正文 时间:2014-1-19 10:11:50

方差分析:不同组间的差异真的显著吗 发布:数据小兵 | 分类:数据观点 |

在数据分析中,按照具体维度将数据分组进行组间比较是十分常见的,例如 在零售业态中,按照性别、城市、收入水平将消费者进行分组进行对比分析。看 似简单,其实这其中经常伴随着拍脑袋决策的危险。以下数据案例可以说明。原 创案例数据、分析思路来自数据小宇军《数据分析企业的贤内助》。 数据案例说明:

上表反映不同收入的用户对 A 卖场品类方面的满意度。我们是否能够从表 面上看,根据 8.29>7.46>7.23,就断定低收入者对 A 卖场的品类最满意,而高 收入者最不满意呢?拍脑袋来看,这似乎十分合理。

不同组间对比,差异是否显著,需要谨慎! 满意度的得分差异来自两个方面,即不同分组间可能的差异和同一组内误差 导致的可能差异。本案例中,不同组间差异是由于收入不同,所引起的用户满意 度差异。同一组内是同样的收入水平,可能由于其他抽样误差引起了用户满意度 的差异。

数据小兵 | www.datasoldier.net

1


数据小兵

www.datasoldier.net

关注数据分析解决方案

而只有当满意度差异来自收入水平(组间差异)的影响时,而不是其他因素, 才可说收入影响品类满意度,不同收入水平的用户满意度不同。

用方差分析来判断组间差异 常用的显著性检验有 T 检验和方差分析,T 检验只适于两组样本,而方差分 析则适于多组样本,本例可采用方差分析来判断。

1、首先我们对上表数据进行细化,找到每组内受访者的具体满意度打分数 值,而不是这个汇总后的得分值。 2、SPSS 方差分析:

数据小兵 | www.datasoldier.net

2


数据小兵

www.datasoldier.net

关注数据分析解决方案

分析:比较均值,单因素方差分析 因变量列表:品类满意度 因子:收入 选项:方差同质性检验

3、数据是否适合做方差分析

方差分析之前,需要进行可行性检验,原假设,各分组方差无差异。根据同 质性检验可知,sig 值 0.453,为大概率,原假设成立,即不同分组之间同质, 没有显著差异,可进行方差分析。

4、方差分析结果

原假设,各分组之间无差异。方差分析 sig 值 0.194,大于小概率值 0.05, 为大概率,原假设成立,即不同收入水平分组之间在品类满意度上并不没有不同。 不存在显著差异。

5、用可视化图来揭示原因

数据小兵 | www.datasoldier.net

3


数据小兵

www.datasoldier.net

关注数据分析解决方案

我们可以看到,每类收入者的满意度得分都围绕平均值上下波动,这表明不 同收入者对品类的态度存在明显差异,例如,同是高收入者,有的非常满意,有 的却十分的不满意。同组内的差异甚至高出不同收入者之间的差异,这一点可以 通过方差分析中方差得以判断。 因此说,收入水平并不是导致用户对 A 卖场品类满意度的关键因素。 可见,数据的表象往往迷惑人,尤其是综合汇总后的平均值,通过对底层数 据进行分组及方差分析则可以让我们拨开云雾,看到数据的本质。 同时,这个案例也告诉我们,在常规的报表分析当中,经常性的工作是对底 层数据进行汇总分析,然后拿汇总数据用于决策,此时,非常容易就数字大小的 对比而做出判断,报表工作人员需要注意,需要养成用统计的理念和逻辑上报数 据的结果。

最后整理:数据小兵 原创案例:数据小宇军《数据分析企业的贤内助》 微博:数据小宇军

数据小兵 | www.datasoldier.net

4


数据小兵

www.datasoldier.net

关注数据分析解决方案

当前位置: 首页 >> 工具方法 >> 正文 时间:2013-3-9 22:19:57

让“数据分析”告诉商家哪种饲料效果更好 发布:数据小兵 | 分类:工具方法 |

案例: 为了提高收益,农场主开始饲养猪,现在,有四种不同品牌的饲料推广员来 到农场,都说自己的饲料效果最好,农场主难以在他们之中做出选择,因此,他 请了你帮助他选择最好的饲料来饲养猪。 作为数据分析师,你需要获取数据作为你观点的支撑,现在问题就摆在面前, 你很自信这个问题一定能够通过数据分析得以解决。根据经验,你为此专门设计 一个数据分析的流程,便于准确、严密的帮助农场主找到答案。

【1.描述问题】 你从农场主那里得知,好的饲料可以让猪快速增肥,使猪体重增高,因此你 决定用猪体重作为衡量饲料好与坏的标准和指标,也可以理解为不同质量的饲料 将对猪体重产生影响,在农场主其他服务不变、分组合理的情况下,饲料是影响 猪体重增加的主要因素。 因此你将问题定义为:在喂食不同饲料的影响下,通过比较猪体重的增加情 况,判断出哪种饲料效果最好。

【2.方法选择】 影响因素:饲料;考量指标:体重;这是一个比较典型的“单因素 X 影响指 标 Y“的问题,影响因素 X 即变量“饲料”,它有 4 个变量值,分别是 A 饲料、 数据小兵 | www.datasoldier.net

1


数据小兵

www.datasoldier.net

关注数据分析解决方案

B 饲料、C 饲料和 D 饲料,是分类变量,显然 A、B、C、D 本身不具有数量型,因 此回归分析是行不通的,如果你熟悉统计方法,则很容易想到用方差分析,而且 是单因素方差分析。 农场主现在有 19 头猪,你决定用这 19 头猪做一个试验,分为 4 组,每组用 一种饲料,一段时间后称重,比较 4 组猪体重数据有无不同,差异性是否具有统 计学意义,从而判断哪种饲料最适合农场主,便于他今后大批量购买使用且获得 最大收益。 方法选择:单因素方差分析,分析工具:SPSS,为什么选择 SPSS

【3.获取数据】这是个试验,一段时间后,分别为四组猪称体重,获取到如下数 据:

【4.数据分析】 启动 SPSS,按照 SPSS 方差分析对数据输入格式的要求,导入如上试验分组 数据,分组方差齐次对于方差分析比较敏感,齐次时对方差分析的结果影响将大 大降低,因此有必要在方差分析的同时作一检查。“均值比较”—— 数据小兵 | www.datasoldier.net

2


数据小兵

“One

way

www.datasoldier.net

关注数据分析解决方案

Anova”,因变量 Y 选择“体重”,因子 X 选择“饲料”,“选项”

卡中选择“方差同质性检验”,确定,要求 SPSS 执行这个过程,将产生两个重 要结果。 重要结果 1:方差齐次检验表

方差其次原假设:齐次,概率现在为 0.995,大概率事件,也就是说分组方 差齐次,适合做方差分析。 重要结果 2:方差分析表

方差分析原假设:分组无差异,现在是小概率事件,即不同饲料对体重有显 著影响。

前面的两个结果告诉我们,使用不同饲料的确对增加猪的体重有着非常大的 作用,可是,你从中看出哪种饲料效果最好了吗?没有,我们只看出了不同饲料 对猪体重的提高具有显著的差异,到底哪个饲料更好,从这两个表格中我们不得 而知。此时,就需要调用 SPSS 方差分析的杀手锏,它是“多重比较”或者叫“两 两比较”,我们让 SPSS 帮主我们在 4 中饲料中进行两两比较,从而告诉我们, 哪个饲料最好。操作:“均值比较”——“One

way

Anova”,因变量 Y 选择

“体重”,因子 X 选择“饲料”,“两两比较”卡,我推荐使用 Duncan 这个方 数据小兵 | www.datasoldier.net

3


数据小兵

www.datasoldier.net

关注数据分析解决方案

法,打钩即可,同时在“选项”卡中选择“均值图”选项,用立体图表的形式会 让结果看起来更加直观。

重要结果 3:两两比较表

可以清楚的看到 4 种饲料下猪的平均体重,很显然 D 饲料分组中猪的体重增 量最大。 重要结果 4:分组均值折线图

通过两两对比,我们非常清晰的看到 D 饲料对应的猪体重比其他 3 种饲料的 更好,也就是增肥效果更强,这种强效果在均值折线图里面显现的淋漓尽致,还 用我告诉你答案吗?我想,农场主大概看一眼就知道他应该怎么做了。

数据小兵 | www.datasoldier.net

4


数据小兵

www.datasoldier.net

关注数据分析解决方案

【5.结论和观点】 进行到现在,我们采用了一种“定义问题”——“分析问题”——“解决问 题”的思路,通过与农场主的沟通了解,我们设计了一个分组试验,通过科学的 方法,我们基本得到答案,不同饲料对猪体重增加都有非常好的效果,然而相比 其他三种,我们有理由认为,D 饲料的效果最好,推荐农场主今后采购此种饲料 长期喂养。

当然,有一个问题必须申明,这个结果有这样的假设“农场主其他服务不变 的情况下,分组相对合理”,因此我们的结论是有一定基础的,如果农场主饲养 的猪数量很大,这种假设对结论和观点的影响将大大降低,总体而言,相信 D 饲料效果最佳是合理的。

A、B、C 饲料的推广人员或许很不服气,尽管他们口若悬河,可是在有力证 据下,相信他们不得不写一份报告给各自的老板,内容大概是:我们的产品在市 场上不具有竞争力,

这是数据分析告诉我们的!

数据小兵 | www.datasoldier.net

5


数据小兵

www.datasoldier.net

关注数据分析解决方案

当前位置: 首页 >> 工具方法 >> 正文 时间:2013-6-23 12:17:16

SPSS 用于正交试验优化设计及其方差分析 发布:数据小兵 | 分类:工具方法 |

试验优化设计,指在最优化思想的指导下,进行最优设计的一种优化方法, 从不同的优良性出发,合理设计试验方案,有效控制试验干扰,科学处理试验数 据,全面进行优化分析,直接实现优化目标。 正交试验设计是试验优化的常用技术,在农业试验、工业优化、商业优化等 方面应用已久。主要优点是能在多试验条件中选出代表性强的少数试验方案,通 过对这些少数试验方案结果的分析,从中找出最优方案或最佳生产工艺条件,并 可以得到比试验结果本身给出的还要多的有关各因素的信息。 SPSS 软件不仅具有包括数据管理、统计分析、图表分析、输出管理等在内 的基本统计功能, 而且用它处理正交试验设计中的数据程序简单, 分析结果明 了。

【实施正交试验设计的步骤】

1、明确试验目的,确定考核指标 明确通过正交试验想要解决什么问题,确定用来衡量试验效果的评价指标,并详 细描述出评定该指标的原则标准、测定指标的方法重要信息。 2、挑因素,选水平 有依据的选择引起指标变化的影响因素,因素在试验中的各种状态称为因素 的水平。尽量选择适用于人为控制的和调节的影响因素,最后列出因素水平表。 3、选择合适的正交表 在能够安排下试验因素和交互作用前提下,尽可能选用较小的正交表,以减 少试验次数和成本的消耗。 4、进行表头设计 表头设计即将试验因素安排到所选正交表的各列中去的过程。正交表中的任 意一列的位置是一样的,可以任意变换,因此不考虑交互作用的情况下可直接将 所有因素安排在任意一列;如果考虑交互作用,则必须按照交互作用列表的规定 进行配列;为避免混杂,那些主要因素重点考察的因素涉及交互作用较多的因素,

数据小兵 | www.datasoldier.net

1


数据小兵

www.datasoldier.net

关注数据分析解决方案

应优先安排;特别注意,尽可能安排空列,用于反映试验误差,并以此作为衡量 试验因素产生的效应是否可靠的标志。 5、排出试验方案 表头设计完成后,将所选正交表中各列的不同数字换成对应因素的相应水 平,形成试验方案。试验方案中的试验号并不意味着实际进行试验的顺序,一般 需同时进行,若条件不允许,为排除外界环境干扰,应使试验序号随机化。 6、开始试验,收取结果 按照随机化的试验顺序进行试验,记录结果必备分析。 7、试验结果的统计分析 正交设计的结果分析有两种,一种是极差分析法(直观分析法),只考虑因 素间的影响,不考虑试验误差。另一种是方差分析法,是一种精细化分析方法, 可采用 spss 完成。

【SPSS 正交试验设计案例】

我们用正交试验的方法,对从中草药虎杖中提取白藜芦醇苷的工艺进行优 化。 (1)明确目的,确定指标:这是工艺优化的案例,目的在于通过试验,寻 求优选白藜芦醇苷的最佳提取条件,白藜芦醇苷提取的效果指标为白藜芦醇苷含 量。 (2)挑因素,选水平:根据专业知识及参考文献知识,以及正交试验的特 点,选定影响水提取法的 3 个因素,加水量、煎煮时间、煎煮次数,每个因素 3 个水平,列出因素水平表如下:

(3)选择正交表:此为 3 水平试验,并不考虑交互作用,有 3 个因素需要 占据 3 列,预留一个空列作为误差的话,标准正交表 L934 是最合适的选择。 (4)表头设计:不考虑交互作用,因素可占据任意列。 数据小兵 | www.datasoldier.net

2


数据小兵

www.datasoldier.net

关注数据分析解决方案

(5)排出试验方案:方案及试验结果如下表,第六步省略。

(7)试验结果的方差分析:为考察试验的误差及精细效果,我们直接采用 SPSS 方差分析来对此试验进行结果分析。 A:方差分析的步骤

B:不考虑交互作用,只考察各因素的主效应

数据小兵 | www.datasoldier.net

3


数据小兵

www.datasoldier.net

关注数据分析解决方案

C:方差分析结果解读

由方差分析可知,影响因素中加水量和煎煮次数两个对提取白藜芦醇苷具有 显著的影响,而煎煮时间这个因素对其的影响较小。3 个因素的主次关系是:煎 煮次数>加水量>煎煮时间。 D:影响因素的哪个水平最好?可以通过绘制出的图直观的看出,也可以通 过邓肯氏检验来解答,这里我们仅列出直观图。

数据小兵 | www.datasoldier.net

4


数据小兵

www.datasoldier.net

关注数据分析解决方案

通过上图,我们可以非常直观的看出,从三个因素中选择最好的水平,得到 最佳组合为 A3B2C3,即加水量 12,煎煮时间 1.5 小时,煎煮次数 3 次。 使用 SPSS 统计软件包对 L9(34) 正交试验结果进行数据处理, 只要按正交 表的设计格式输入实验数据, 便可获得所需的统计结果。其操作方便,直观,快 捷,结果准确,使研究工作事半功倍,此法也可用来处理其他正交试验的数据。 参考:《正交实验法优选烫伤合剂的提取工艺》 《食品试验优化设计与统计分析》 最后整理:数据小兵

数据小兵 | www.datasoldier.net

5


数据小兵 www.datasoldier.net 关注数据分析解决方案

当前位置: 首页 >> 工具方法 >> 正文 时间:2013-9-14 23:44:38

SPSS 无空白列重复正交试验设计方差分析 发布:数据小兵 | 分类:工具方法 |

前面有讲过 SPSS 用于正交试验优化设计及其方差分析 的一篇文章,包含 了一个典型的正交试验案例,然而在实际应用当中,各种主观、客观条件复杂多 变,为了用较小的试验成本得到良好的试验结果,在试验设计中就要求能够灵活 控制影响因素和水平的个数,以及试验的次数,正交设计就如同“独孤九剑”,招 数虽只有一招,但却变化多端,有多重不同应用方式,无空白列重复正交设计就 是其中的一个变式。

案例场景 某制药厂主要生产胃蛋白酶,为了提高生产效率,拟从生产工艺上进行优化 改进,你被要求负责该项目。根据多年的生产经验,你认为影响生产效率的因素 主要包括 A 水解温度,B 水解时间,C 加盐量,D 烘房温度,根据目前现有的生 产条件,这几个因素能调整的参数大概只有三个水平,以残留蛋白作为质量指标, 你决定通过正交试验来解决当前的问题。

数据来源: 《SPSS13 在空白列正交试验设计及其数据处理中的应用》 数据小兵 | www.datasoldier.net

1


数据小兵 www.datasoldier.net 关注数据分析解决方案

选择正交表

各个因素只能调整 3 个参数水平,主要有 4 个因素,因此最先考虑到选用 L9(34)四因素三水平正交表,由于参数水平客观条件的限制,L16(45)正交 表可以不用考虑了。选定 L9(34)正交表,遇到一个问题,因素排满,没有空 白列用于统计实验误差,所以,必须通过重复试验来统计实验误差,你决定每个 组合方案重复 3 次。因此,本实验最终需要 27 次,将得到 27 组数据。 SPSS 正交试验数据录入格式 网上有不少同学提到这个问题,其实,数据结果组织形式和无重复试验的格 式是一样的,只需要顺次增加行即可。

方差分析步骤 菜单操作: 分析—一般线性模型—单变量 因变量:输入 残留蛋白 数据小兵 | www.datasoldier.net

2


数据小兵 www.datasoldier.net 关注数据分析解决方案

固定因子:输入 水解温度,水解时间 C 加盐量,烘房温度 模型选项卡:以上四个影响因素 作为主效应进行分析 方差分析结果

四个影响因素的 sig 值均小于 0.01,表明四个因素对生产胃蛋白酶都有极显 著的影响,验证了最初你的经验。但这还不是我们最终的目的,我们需要得到提 高生产效率的最优化工艺组合,直白一点,就是你必须找到每个影响因素最好的 那个水平参数。 这个问题在 上一篇文章 中就有说明,可采用多重比较的方法就行可视化比 较。 具体做法:

多重比较选项卡:将四个具有显著影响的因素依次输入到右侧的“两两比较 检验”框中,选择“duncan”法来计算。

数据小兵 | www.datasoldier.net

3


数据小兵 www.datasoldier.net 关注数据分析解决方案

单从数据分析的结果来看,最优工艺组合为:A3B3C2D1。值得讨论的问题: 水解时间、加盐量两个因素趋势图有些异常,可能和其他两个因素存在交互作用, 可以讨论。

数据小兵 | www.datasoldier.net

4


数据小兵

www.datasoldier.net

关注数据分析解决方案

当前位置: 首页 >> 工具方法 >> 正文 时间:2013-12-3 23:45:41

卡方检验:商场一周内每天的顾客数有差别吗? 发布:数据小兵 | 分类:工具方法 |

前面介绍了 到底什么是卡方检验以及什么情况下使用卡方检验,从今天开 始陆续发布几个简单的案例,以供读者朋友参考学习。这些案例计划分成两大板 块来整理,第一板块是拟合度卡方检验,第二个板块将重点展示列联表卡方检验。 拟合度卡方检验的第一种情况:单变量不同水平间差异性检验

这里的单变量具体指:商场周一到周日的顾客数,7 个水平,分别是周日开 始到周六结束的 7 个数字,问题是:一周内每天的顾客数是否有显著性差异?假 设:一周内每天的顾客人数一致,无差异。

1、录入数据 SPSS 中,新增一列,依次录入 7 个数据,通过“定义数据”自动生成时间水 平维度。

2、频数加权

数据小兵 | www.datasoldier.net

1


数据小兵

www.datasoldier.net

关注数据分析解决方案

每天的顾客数,是实际的观测数据,在卡方之前,我们将顾客数观测数据, 作为频数进行加权。 3、SPSS 卡方菜单步骤 分析——非参数检验——单样本 目标——自定义分析 字段——使用定制字段——将日期移入检验字段 设置——自定义——选择卡方检验——所有类别概率相等 执行

数据小兵 | www.datasoldier.net

2


数据小兵

www.datasoldier.net

关注数据分析解决方案

4、卡方检验结果 1

Sig<0.01,根据小概率事件规则,认为我们之前“一周内每天顾客人数一直 无差异”的假设没有发生,即每天顾客人数间是有差异的,而且是极显著的差异, 商场应根据不同的人流量指定相应的工作计划。 5、卡方检验结果 2

SPSS 根据每天的观测频数及期望频数,自动生产上图,提高了可视化的程 度,当然,这个图可以通过 excel 制作得更加直观和优化。很清楚的看到周六、 周日两天均明显高出期望值,客流量达到最高。

结论 检验不同水平差异,SPSS 将观测频数与期望频数对比,在没有差异的假设 下,计算卡方统计量,进而由 sig 值判断单变量下不同水平见是否存在差异。此 时,在样本数据无法满足正态分布的要求下,使用卡方代替 T 检验是比较常见 的。 (文/图 数据小兵 原创 案例整理自网络)

数据小兵 | www.datasoldier.net

3


数据小兵

www.datasoldier.net

关注数据分析解决方案

当前位置: 首页 >> 工具方法 >> 正文 时间:2013-12-7 21:56:1

卡方检验:顾客的付款习惯发生改变了吗? 发布:数据小兵 | 分类:工具方法 |

上一篇讲到用 卡方检验轻松的判断出商场一周内每天的顾客数是否有差 异,今天看一下有关拟合度卡方检验的另一种情况:一样本中某个变量不同水平 出现的概率是否与总体的已知概率相符。 分析案例

Paul 在为公司做一个改善应收帐款的项目,在三季度末,他随机的检查了 416 笔应收帐款并作了一份过期帐款的分析报告,发现如下结果:

过去几年三季度末的数据呈如下模式,这是历史数据给出的过期还款的合理 比例。

根据上述的结果,我们能否判断顾客付款的习惯与前几年相比发生了变化。 实际问题:样本数据是否显示应收帐款的(比例)模式发生了变化?有没有可能(比 例)模式并没有发生变化,我们观察到的结果只是由随机波动引起? 数据小兵 | www.datasoldier.net

1


数据小兵

www.datasoldier.net

关注数据分析解决方案

SPSS 卡方检验解决方案

1、录入数据 SPSS 中,新增两列,第一列命名为:过期天数,依次录入:0、1、2、3, 标签分别对应:正常,1 个月内、2 个月内、超过 2 个月。第二列命名为:还款 笔数,依次录入:293、63、36、24。录入过程中,变量不同水平分类值得对应 关系,以免导致错误。

2、频数加权

我们要检验过期天数这个变量不同分类水平的概率与总体的概率是否一致, 首先将还款笔数这个数值型变量作为加权频数,给过期天数这个变量赋予相应概 率。

3、SPSS 卡方检验菜单步骤 分析——非参数检验——单样本 目标——自定义分析 字段——使用定制字段——将“过期天数”移入检验字段 设置——自定义——选择卡方检验——自定义期望概率,依次输入(0,0.8)、 (1,0.1)(2,0.07)(3,0.03) 执行 数据小兵 | www.datasoldier.net

2


数据小兵

www.datasoldier.net

关注数据分析解决方案

4、卡方检验结果

Sig<0.01,根据小概率事件规则,不接受样本分类水平概率和总体概率一致 的假设,即认为顾客的还款习惯和以往发生了变化,从数据上来看,他们倾向于 延迟付款,这并不是好事情,应引起注意。

从 18 版本开始,SPSS 对非参数检验菜单进行了新的编排,卡方检验就隐 藏在其中,具体的操作方法可以通过软件自带的说明来了解。

数据小兵 | www.datasoldier.net

3


数据小兵

www.datasoldier.net

关注数据分析解决方案

当前位置: 首页 >> 工具方法 >> 正文 时间:2013-11-30 22:21:46

卡方检验:挽救参数检验的一颗稻草 发布:数据小兵 | 分类:工具方法 |

到底什么是卡方检验? 卡方检验是卡方分布为基础的一种检验方法,主要用于分类变量,根据样本 数据推断总体的分布与期望分布是否有显著差异,或推断两个分类变量是否相关 或相互独立。其原假设为:观察频数与期望频数没有差别。凡是可以应用比率进 行检验的资料,都可以用卡方检验。

要注意的是,卡方检验受样本量的影响很大,同样两个变量,不同的样本量, 可能得出不同的结论。解决这个问题的办法是对卡方值进行修正,最常用的是列 联系数。对较大样本,当卡方检验的的结果显著,并且列联系数也显著时(列联 系数至少超过 0.16),才可拒绝原假设;当卡方检验的结果显著,列联系数不 显著时,不能轻易下结论。 卡方检验的用途? 一般情况下分类变量用卡方检验,连续性变量用 t 检验或者 u 检验。小样本 n<50 时,通常是 t 检验,大样本用 u 检验。 卡方检验最常见的用途就是考察某无序分类变量各水平在两组或多组间的 分布是否一致实际上,除了这个用途之外,卡方检验还有更广泛的应用。具体而 言,其用途主要包括以下几个方面: 数据小兵 | www.datasoldier.net

1


数据小兵

www.datasoldier.net

关注数据分析解决方案

1、检验某个连续变量的分布是否与某种理论分布相一致。如是否符合正态 分布、是否服从均匀分布、是否服从 Poisson 分布等。 2、检验某个分类变量各类的出现概率是否等于指定概率。如在 36 选 7 的 彩票抽奖中,每个数字出现的概率是否各为 1/36;掷硬币时,正反两面出现的 概率是否均为 0.5。 3、检验某两个分类变量是否相互独立。如吸烟(二分类变量:是、否)是否 与呼吸道疾病(二分类变量:是、否)有关;产品原料种类(多分类变量)是否与产 品合格(二分类变量)有关。 4、检验控制某种或某几种分类因素的作用以后,另两个分类变量是否相互 独立。如在上例中,控制性别、年龄因素影响以后,吸烟是否和呼吸道疾病有关; 控制产品加工工艺的影响后,产品原料类别是否与产品合格有关。 5、检验某两种方法的结果是否一致。如采用两种诊断方法对同一批人进行 诊断,其诊断结果是否一致;采用两种方法对客户进行价值类别预测,预测结果 是否一致。

什么情况下使用卡方检验? 参数检验对观测值的 普遍要求是总体呈正态分布,但实际研究中,不是所 有观测值都呈正态分布,或者无法确定其是否正态分布,由于缺乏足够信息,总 体的分布未知,这些情况下,参数检验技术就未必适用了,因此我们还需要掌握 一些非参数检验技术,其中最为常用的就是卡方检验,它最适合于次数分布检验。 卡方检验作为非参数检验的一种,其稳健性不及参赛检验,因此,从使用的 角度来看,应首选参数检验,如果在无法满足参数检验基础条件的前提下,再考 虑使用非参数检验,例如,样本来自的总体数据不符合正态分布,此时可采用卡 方检验完成。另外,研究定类变量和定序变量之间的关系时,由于定类或者定序 变量都不具有完备的运算性能,因此无法对总体某种参赛的计算,可采用非参数 检验如卡方检验来完成。(文/整理自网络)

数据小兵 | www.datasoldier.net

2


数据小兵

www.datasoldier.net

关注数据分析解决方案

当前位置: 首页 >> 图说数据 >> 正文 时间:2013-7-20 16:11:58

数据分析不是简单的“分析数据” 发布:数据小兵 | 分类:图说数据 |

数据分析不是简单的“分析数据”,它是一种解决问题的方法,一个解决问题 的过程,甚至是一种方法观。作为一名普通“数据疯嘻狮”,@数据小兵 跟大家相 对狭义地聊聊“数据分析这回事”。如果你是一个业务人员,你也可以将之理解为 业务分析。 感谢 @微软数据视界 对博客文章(原文)的精编,友好的、可视化的信息 图片的确够强大,阅读起来更具有美感,体验很好,信息图表压缩后如果文字看 不清楚,可点击原文链接,查看原文。

读者您好,这篇博文中的图片较 长,不易在多张文档中显示。放 大并读图的办法:

点击博文的标题,直接进入网页 地址查看,标题中内嵌有超链 接。

数据小兵 | www.datasoldier.net

1


数据小兵

www.datasoldier.net

关注数据分析解决方案

当前位置: 首页 >> 数据观点 >> 正文 时间:2013-10-24 21:42:28

根据变量类型选择数据分析方法 发布:数据小兵 | 分类:数据观点 |

面对大量数据,你将如何开展数据分析?您会选择什么样的数据分析方法 呢?您是否看着数据感到迷茫,无所适从。认真读完这篇文章,或许你将有所收 获。 把握两个关键 1、抓住业务问题不放松。您费大力气收集数据的动机是什么?你想解决什 么问题?这是核心,是方向,这是业务把握层面。 2、全面理解数据。哪些变量,什么类型?适合或者可以用什么统计方法, 这是数据分析技术层面。须把握三大关键:变量、数据分析方法、变量和方法的 关联。 认识变量

数据小兵 | www.datasoldier.net

1


数据小兵

www.datasoldier.net

关注数据分析解决方案

认识数据分析方法

选择合适的数据分析方法是非常重要的。选择数据分析(统计分析)方法时, 必须考虑许多因素,主要有:

1、数据分析的目的, 2、所用变量的特征, 3、对变量所作的假定, 4、数据的收集方法。选择统计分析方法时一般考虑前两个因素就足够了。

将变量与分析方法关联、对应起来

其一:

其二:

数据小兵 | www.datasoldier.net

2


数据小兵

www.datasoldier.net

关注数据分析解决方案

本篇资料主要参考自《实用现代统计分析方法及 SPSS 应用》,最终编辑: 数据小兵

数据小兵 | www.datasoldier.net

3


数据小兵

www.datasoldier.net

关注数据分析解决方案

当前位置: 首页 >> 工具方法 >> 正文 时间:2013-7-28 10:58:29

数据的标准化处理及实际应用 发布:数据小兵 | 分类:工具方法 |

数据标准化处理是

数据挖掘

的一项基础工作,不同评价指标往往具有不

同的量纲和量纲单位,这样的情况会影响到数据分析的结果,为了消除指标之间 的量纲影响,需要进行数据标准化处理,以解决数据指标之间的可比性。原始数 据经过数据标准化处理后,各指标即处于同一数量级,适合进行综合对比评价。

极差法 极差法是对原始数据的线性变换,首先计算指标值得最小值、最大值,计算 极差,通过极差法将指标值映射到[0-1]之间。公式为: 新数据=(原数据-极小值)/(极大值-极小值)

Z-score

标准化法

SPSS 默认的数据标准化方法即是 Z 得分法,这种方法基于原始数据的均值 (mean)和标准差(standard

deviation)进行数据的标准化。经过处理的数

据符合标准正态分布,即均值为 0,标准差为 1。公式为:

其中μ为所有样本数据的均值,σ为所有样本数据的标准差。

数据标准化的另外一个实用之处

在实际应用中,数据标准化不只是用于指标的可比性处理,还有一些非常实 用的用处,利用标准化方法将指标归到最适于我们观测的范围,更加直观。且看 案例: 数据小兵 | www.datasoldier.net

1


数据小兵

www.datasoldier.net

关注数据分析解决方案

有一组数据,是学生参加某次社会公益活动的数据,其中有一指标为:在校 综合评价指数,反映学生在校综合表现水平。

可以看出这个指标的范围为[0-140],但这个范围不太符合我们在学校里的 习惯,在学校里经常用[0-100]的百分制,60 分以上基本认可为及格,现在这个 范围不能直观的反映学生在校表现水平。此时,极差法是一个非常好的选择,我 们可以将[0-140]数值,映射到[0-100],便于直观对比学生的表现。

公式为:(原数据-极小值)/(极大值-极小值)*100 我们再来看看结果: 数据小兵 | www.datasoldier.net

2


数据小兵

www.datasoldier.net

关注数据分析解决方案

此时,[0-100]的范围非常符合我们日常的比较标准,能直观的反映学生的 在校综合表现,已经达到目的。

数据小兵 | www.datasoldier.net

3


数据小兵

www.datasoldier.net

数据小兵精选特供

一份 SPSS 回归分析与数据预处理的心得体会 时间:2015 年 3 月 8 日 | 栏目: SPSS 课堂 | 作者: 数据小兵

关于 SPSS 学习与交流的专业论坛,小兵博客一直推荐大家去人大经济论坛 SPSS 专版。这个板块几乎覆盖了 SPSS 统计分析从理论到实践、从工具到方法的 各类材料。特别适合 SPSS 初学者和使用者交流互动,传授经验。

今天小兵就先为大家分享一篇论坛网友 SPSS 数据分析的心得体会,原作者: xddlovejiao1314,谢谢他的宝贵经验分享。 关于 SPSS 数据预处理 拿到一份数据,或者在看到国内外某个学者的文章有想法而自己手里的数据 刚好符合这个想法可以做时,在整理好数据后不要急于建模。一定要对数据做缺 失值处理、异常值处理。在数据预处理的基础上再进一步建模,否则可能得到错 误的结果。 心得 1:数据预处理怎么做。 一是 缺失值的处理。我个人有几个看法: 数据样本量足够大,在删除缺失值样本的情况下不影响估计总体情况,可考 虑删除缺失值; 二是数据样本量本身不大的情况下,可从以下两点考虑:1 是采用缺失值替 换,SPSS 中具体操作为“转换”菜单下的“替换缺失值”功能,里面有 5 种替 换的方法。若数据样本量不大,同质性比较强,可考虑总体均值替换方法,如数 据来自不同的总体(如我做农户调研不同村的数据),可考虑以一个小总体的均 值作为替换(如我以一个村的均值替换缺失值)。2 是根据原始问卷结合客观实 际自行推断估计一个缺失值的样本值,或者以一个类似家庭的值补充缺失值。

数据小兵 | www.datasoldier.net

1


数据小兵

www.datasoldier.net

数据小兵精选特供

心得 2:数据预处理第二点异常值的处理。 我大概学了两门统计软件 SPSS 和 Stata,SPSS 用的时间久些,熟悉一下, Stata 最近才学,不是太熟。关于这点我结合着来说。关于异常值的处理可分为 两点,一是怎么判定一个值是异常值,二是怎么去处理。 判定异常值的方法我个人认为常用的有两点:1 是描述性统计分析,看均值、 标准差和最大最小值。一般情况下,若标准差远远大于均值,可粗略判定数据存 在异常值。2 是通过做指标的箱图判定,箱图上加“*”的个案即为异常个案。 发现了异常值,接下来说怎么处理的问题。大概有三种方法: 1 是正偏态分布数据取对数处理。我做农户微观实证研究,很多时候得到的 数据(如收入)都有很大的异常值,数据呈正偏态分布,这种我一般是取对数处 理数据。若原始数据中还有 0,取对数 ln(0)没意义,我就取 ln(x+1)处理; 2 是样本量足够大删除异常值样本; 3 是从 stata 里学到的,对数据做结尾或者缩尾处理。这里的结尾处理其实 就是同第二个方法,在样本量足够大的情况下删除首尾 1%-5%的样本。缩尾指的 是人为改变异常值大小。如有一组数据,均值为 50,存在几个异常值,都是 500 多(我这么说有点夸张,大概是这个意思),缩尾处理就是将这几个 500 多的数 据人为改为均值+3 标准差左右数据大小,如改为 100。 总结而言,我个人认为做数据变换的方式比较好,数据变换后再做图或描述 性统计看数据分布情况,再剔除个别极端异常值。 关于 SPSS 回归分析 心得 1:如何做好回归分析。

数据小兵 | www.datasoldier.net

2


数据小兵

www.datasoldier.net

数据小兵精选特供

经过多次实战,以及看了 N 多视频,上了 N 多课,看了 N 多专业的书。我个 人总结做回归的步奏如下: 1 对数据进行预处理,替换缺失值和处理异常值; 2 是将单个自变量分别与因变量做散点图和做回归,判定其趋势,并做好记 录(尤其是系数正负号,要特别记录); 3 是自变量和因变量一起做相关系数,看各个变量相关关系强弱,为下一步 检验多重共线性做准备; 4 是自变量多重共线性诊断。若变量存在多重共线性,可采用主成分回归, 即先将存在多重共线性的变量做主成分分析合并为 1 个变量,然后再将合并成的 新变量和其余自变量一起纳入模型做回归; 5 是做残差图,看残差图分布是否均匀(一般在+-3 个单位之间均匀分布就 比较好); 6 是报告相应结果。

心得 2:看到论坛上有网友问为什么他(她)老师不建议采用后向步进法处 理变量多重共线性。 记得张文彤老师说过他有个同学做过一个研究,即采用后向步进法剔除变量 的方式去做回归,得到的结果犯错的几率比较大。张老师也不建议用这个方法处 理多重共线性。处理多重共线性比较好的方法是做主成分回归。 心得 3:有个朋友问我在报到回归结果时用未标准化的回归系数好,还是用 标准化后的回归系数好。 我个人觉得这个问题仁者见仁智者见智,要看想表达什么。具体而言,如果 想表达在其它条件不变的情况下,自变量 X 每变化 1 个单位,因变量变化多少个 单位,这种情况用未标准化回归系数就好;如果想比较各个自变量对因变量影响 的相对大小,即判断相对而言,哪个变量对因变量影响更大。这时需要消除量纲 的影响,看标准化后的回归系数。 数据小兵 | www.datasoldier.net

3


数据小兵

www.datasoldier.net

数据小兵精选特供

心得 4:这是投稿一篇 SSCI 外审专家提出的意见。 我做的是 无序多分类 logistic 回归模型。因变量分了 5 类,有一类个数 比较多,达到 300 多,有 1-2 类个案比较少,只有 30 左右。专家提到了要做稳 健性检验。这个用 stata 软件编程加一个 robust 即可解决问题。不知道在 SPSS 里面怎么做。欢迎知道的朋友一起讨论下。我个人认为这是一个好问题的。不做 稳健性检验模型可能受一些极端值的影响,结果不稳定。可能本来显著的变量剔 除 1-2 个样本后就变得不显著了。所以做回归分析稳健性检验也比较重要。 原文地址:http://bbs.pinggu.org/thread-3569928-1-1.html

数据小兵 | www.datasoldier.net

4


数据小兵

www.datasoldier.net

数据小兵精选特供

简单回顾一下 Logistic 回归模型 时间:2014 年 12 月 30 日 | 栏目:

SPSS 课堂

| 作者: 数据小兵 |击: 1657 次

【关注度、流行趋势】 Logistic 回归是分类资料回归分析的一种,而且是最基础的一种。 Logistic 回归应用广泛、关注度较高,在医学研究、市场研究等方面比较流行。 下图是 CNKI 学术搜索给出的学术关注度,可见其被广泛关注应用程度和时间序 列的关系。

【主要特征】 Logistic 回归模型有几个显著的特征, 其一,因变量是分类变量,而我们经常看到的回归分析因变量一般为 连续变量,比如,“是否购买”变量取值只有两个状况,购买或者不购买,这类 问题正是 logistic 回归所涉及的;

数据小兵 | www.datasoldier.net

1


数据小兵

www.datasoldier.net

数据小兵精选特供

其二,某事件发生概率 P 进行 logit 变换,则 logit P 取值范围将与 “是否购买”“是否发病”等因变量的取值一致,此时,可以用 logit P 作为因 变量进行回归; 其三,可以预测某事件发生某种状况的概率,logistic 回归模型之所以 如此受关注,也是基于其比其他回归模型更符合实际情况;

【主要应用领域】 1、影响因素、危险因素分析 主要在流行病学中应用较多,比较常用的情形是探索某疾病的危险因 素,也即影响因素分析。包括从多个可疑影响因素中筛选出具有显著影响的因素 变量,还包括仅考察某单一因素是否为影响某一事件发生与否的因素。 2、预测是否发生、发生的概率 如果已经建立了 logistic 回归模型,则可以根据模型,预测在不同的 自变量情况下,发生某病或某种情况的概率有多大。 3、判别、分类 实际上跟预测有些类似,也是根据 logistic 模型,判断某人属于某病 或属于某种情况的概率有多大,也就是看一下这个人有多大的可能性是属于某 病。 【logistic 回归模型的应用条件】 以下内容分享自网易卫生统计学博主,感谢博主精彩的内容。以下为 原文: logistic 回归与多重线性回归一样,在应用之前也是需要分析一下资 料是否可以采用 logistic 回归模型。并不是说因变量是分类变量我就可以直接 采用 logistic 回归,有些条件仍然是需要考虑的。 首要的条件应该是需要看一下自变量与因变量之间是什么样的一种关 系。多重线性回归中,要求自变量与因变量符合线性关系。而 logistic 回归则 不同,它要求的是自变量与 logit(y)符合线性关系,所谓 logit 实际上就是 ln(P/1-P)。也就是说,自变量应与 ln(P/1-P)呈线性关系。当然,这种情 形主要针对多分类变量和连续变量。对于二分类变量就无所谓了,因为两点永远 是一条直线。 这里举一个例子。某因素 y 与自变量 x 之间关系分析,y 为二分类变 量,x 为四分类变量。如果 x 的四分类直接表示为 1,2,3,4。则分析结果为 p=0.07,显示对 y 的影响在 0.05 水准时无统计学意义,而如果将 x 作为虚拟变 量,以 1 为参照,产生 x2,x3,x4 三个变量,重新分析,则结果显示:x2,x3, x4 的 p 值分别为 0.08,0.05 和 0.03。也就是说,尽管 2 和 1 相比无统计学意义, 但 3 和 1 相比,4 和 1 相比,均有统计学意义。

数据小兵 | www.datasoldier.net

2


数据小兵

www.datasoldier.net

数据小兵精选特供

为什么会产生如此结果?实际上如果仔细分析一下,就可以发现,因 为 x 与 logit(y)并不是呈线性关系。而是呈如下图的关系:

这就是导致上述差异的原因。从图中来看,x 的 4 与 1 相差最大,其 次是 2,3 与 1 相差最小。实际分析结果也是如此,上述分析中,x2,x3,x4 产 生的危险度分别为 3.1,2.9,3.4。 因此,一开始 x 以 1,2,3,4 的形式直接与 y 进行分析,默认的是认 为它们与 logit(p)呈直线关系,而实际上并非如此,因此掩盖了部分信息, 从而导致应有的差异没有被检验出来。而一旦转换为虚拟变量的形式,由于虚拟 变量都是二分类的,我们不再需要考虑其与 logit(p)的关系,因而显示出了 更为精确的结果。 最后强调一下,如果你对自变量 x 与 y 的关系不清楚,在样本含量允 许的条件下,最好转换为虚拟变量的形式,这样不至于出现太大的误差。 如果你不清楚应该如何探索他们的关系,也可以采用虚拟变量的形式, 比如上述 x,如果转换的虚拟变量 x2,x3,x4 他们的 OR 值呈直线关系,那 x 基 本上可以直接以 1,2,3,4 的形式直接与 y 进行分析。而我们刚才也看到了, x2,x3,x4 的危险度分别为 3.1,2.9,3.4。并不呈直线关系,所以还是考虑以 虚拟变量形式进行分析最好。 总之,虚拟变量在 logistic 回归分析中是非常有利的工具,善于利用 可以帮助你探索出很多有用的信息。 【logistic 回归所需的样本量】 同上,摘自卫生统计学 一般来说,简单的研究,比如组间比较,包括两组和多组比较,都有 比较成熟的公式计算一下你到底需要多少例数。这些在多数的统计学教材和流行 病学教材中都有提及。而对于较为复杂的研究,比如多重线性回归、logistic 回归之类的,涉及多个因素。这种方法理论上也是有计算公式的,但是目前来讲, 似乎尚无大家公认有效的公式,而且这些公式大都计算繁琐,因此,现实中很少 有人对 logistic 回归等这样的分析方法采用计算的方法来估计样本量。而更多 地是采用经验法。 其实关于 logistic 回归的样本量在部分著作中也有提及,一般来讲, 比较有把握的说法是:每个结局至少需要 10 例样品。这里说得是每个结局。例 如,观察胃癌的危险因素,那就是说,胃癌是结局,不是你的总的例数,而是胃 癌的例数就需要这么多,那总的例数当然更多。比如我有 7 个研究因素,那我就 至少需要 70 例,如果你是 1:1 的研究,那总共就需要 140 例。如果 1:2 甚至 更高的,那就需要的更多了。 而且,样本量的大小也不能光看这一个,如果你的研究因素中出现多 重共线性等问题,那可能需要更多的样本,如果你的因变量不是二分类,而是多 分类,可能也需要更大的样本来保证你的结果的可靠性。 数据小兵 | www.datasoldier.net

3


数据小兵

www.datasoldier.net

数据小兵精选特供

理论上来讲,logistic 回归采用的是最大似然估计,这种估计方法 有很多优点,然而,一个主要的缺点就是,必须有足够的样本才能保证它的优点, 或者说,它的优点都是建立在大样本的基础上的。一般来讲,logistic 回归需 要的样本量要多于多重线性回归。 最后仍然需要说一句,目前确实没有很好的、很权威的关于 logistic 回归样本量的估计方法,更多的都是根据自己的经验以及分析过程中的细节发 现。如果你没有太大的把握,就去请教统计老师吧,至少他能给你提出一些建议。 本文为 数据小兵 原创,转载请注明出处。

数据小兵 | www.datasoldier.net

4


数据小兵

www.datasoldier.net

关注数据分析解决方案

当前位置: 首页 >> 工具方法 >> 正文 时间:2013-7-13 23:48:35

用 Logistic 回归建立客户购买模型 发布:数据小兵 | 分类:工具方法 |

Logistic 回归是分类资料回归分析的一种,而且是最基础的一种。Logistic 回归应用广泛、关注度较高,在医学研究、市场研究等方面比较流行。下图是 CNKI 学术搜索给出的学术关注度,可见其被广泛关注应用程度和时间序列的关 系。

Logistic 回归主要应用领域 1、影响因素、危险因素分析 主要在流行病学中应用较多,比较常用的情形是探索某疾病的危险因素,即 影响因素分析。包括从多个可疑影响因素中筛选出具有显著影响的因素变量, 还包括仅考察某单一因素是否为影响某一事件发生与否的因素。 2、预测是否发生、发生的概率 如果已经建立了 logistic 回归模型,则可以根据模型,预测在不同的自变 量情况下,发生某病或某种情况的概率有多大。 3、判别、分类 实际上跟预测有些类似,也是根据 logistic 模型,判断某人属于某病或属 于某种情况的概率有多大,也就是看一下这个人有多大的可能性是属于某病。

数据小兵 | www.datasoldier.net

1


数据小兵

www.datasoldier.net

关注数据分析解决方案

Logistic 回归案例一枚 源数据:数据来自《Clementine 数据挖掘方法及应用》中案例数据 BuyOrNot.sav,包含 431 个样本数据,变量有:是否购买(0 未购买,1 购买)、 年龄、性别(1 男、2 女)和收入水平(1 高收入、2 中收入、3 低收入)。年龄 为数值变量,其他为分类变量。 数据分析 的目标:(仅基于此样本)年龄、性别、收入,哪些因素在影响 购买决策? 参考工具书:张文彤, 《 数据挖掘方法及应用》。

SPSS

11

统计分析高级教程》;薛薇《Clementine

以下为案例:

数据小兵 | www.datasoldier.net

2


数据小兵

www.datasoldier.net

关注数据分析解决方案

数据小兵 | www.datasoldier.net

3


数据小兵

www.datasoldier.net

关注数据分析解决方案

数据小兵 | www.datasoldier.net

4


数据小兵

www.datasoldier.net

关注数据分析解决方案

数据小兵 | www.datasoldier.net

5


数据小兵

www.datasoldier.net

关注数据分析解决方案

数据小兵 | www.datasoldier.net

6


数据小兵

www.datasoldier.net

关注数据分析解决方案

数据小兵 | www.datasoldier.net

7


数据小兵

www.datasoldier.net

关注数据分析解决方案

数据小兵 | www.datasoldier.net

8


数据小兵

www.datasoldier.net

关注数据分析解决方案

数据小兵 | www.datasoldier.net

9


数据小兵

www.datasoldier.net

关注数据分析解决方案

当前位置: 首页 >> 工具方法 >> 正文 时间:2013-10-27 22:2:10

显著性水平 a,多大才合适? 发布:数据小兵 | 分类:工具方法 |

1.概念与意义 在假设检验中,显著性水平(Significant level,用α表示)的确定是至关 重要的问题。

显著性水平 a,是在原假设成立时,检验统计量值落在某个极端区域的概率 值。因此,若取α= 0.05,如果计算出的 p 值小于α ,则可认为原假设是一个不 可能发生的小概率事件。当然,如果真的发生了,则犯错误的可能性为 5%。显 然,显著性水平反映了拒绝某一原假设时所犯错误的可能性,或者说,α是指拒 绝了事实上正确的原假设的概率。

2.显著性水平 a,取多大才合适? 显著性水平α值一般在进行假设检验前由研究者根据实际的需要确定。

数据小兵 | www.datasoldier.net

1


数据小兵

www.datasoldier.net

关注数据分析解决方案

常用的取值是 0.05,0.01 及 0.1。 对于前者,相当于在原假设事实上正确的情况下,研究者接受这一假设的可 能性为 95%;对于中间者,则研究者接受事实上正确的原假设的可能性为 99%; 后者,接受的可能性为 90%。一般最常用的 0.05 和 0.01,医学类大多采用 0.01。 显然,降低α值可以减少拒绝原假设的可能性。因此,在报告统计分析结果时, 必须给出α值。

3.SPSS 中的实际应用 显著性水平 a 值表现为 SPSS 在数据结果中输出的 Sig 值。假设检验运用了 小概率原理,事先确定的作为判断的界限,即允许的小概率的标准,称为显著性 水平,它把概率分布分为两个区间:拒绝区间,接受区间。 SPSS 和 SAS 等统计软件常用*号表示显著性水平的程度,通常一个*号表示 0.1 的显著水平,两个* *表示 0.05 的显著水平。 (整理自互联网/数据小兵)

数据小兵 | www.datasoldier.net

2


数据小兵

www.datasoldier.net

关注数据分析解决方案

当前位置: 首页 >> 数据观点 >> 正文 时间:2013-1-30 23:50:41

数据分析非小事,审慎对待才是真 发布:数据小兵 | 分类:数据观点 |

多一分谨慎,总会多一分回报。数据分析也需要审慎地去看待,走得进去, 也需要走得出来,多转换角度,或许就会有更多的精彩降临。

[1]、数据分析、数据挖掘技术叫得很响,却未必最靠谱 数据分析现在是一个热门词语,大到集团 ,小到部门的各领导都比较喜欢 挂在嘴上。这个时候对于数据分析人员,最易出现的问题就是“为了分析而分析”! 什么方法最新、最体面、最深奥就用什么方法进行数据分析,往往是“就目前这 个问题,我能不能用到某某技术”,很有可能忽略业务问题的本质。滥用数据分 析方法,不注重业务实际状况,是值得每一个数据分析人员深思的。

[2]、“拍脑袋”,也未必就不是解决问题的方法 如果领导倚重你的理由是“很有工作经验”,在面对棘手的业务问题时,如果 因为你用数据分析说话耗费巨大时间而错过处理问题的最佳时机,或许“拍脑袋” 是最快的、有效的途径。这里所说的“拍脑袋”是指有丰富经验的前提。“拍脑袋” 的领导会认同自己有预见性,洞察力,而数据分析也可以实现遇见与洞察。基于 此,我们可以认为,一个刚入职的新人在职场打拼的资本或许就是你有数据分析

数据小兵 | www.datasoldier.net

1


数据小兵

www.datasoldier.net

关注数据分析解决方案

的能力。因为,数据分析能够帮助你找到工作经验,工作经验,上升到理论或者 方法时,或许就可以等同于数据分析了。

[3]、数据分析,需要耐得住寂寞 数据分析过程,大概有准确定义业务问题-采集相关数据-预处理-方法、技术、 建模-验证-反馈等。按二八原则,80%的时间用于数据的准备、清洗、预处理, 只有 20%是结果。持续时间最久、花费心思最大的一块是前期准备,态度要端 正,数据的质量是保证问题得以解决的基础。要不断反问数据的真实性和即将采 用的数据分析逻辑是否达到要求,这是一个枯燥乏味的活。等到建模后,还需要 不断的验证模型的能力,甚至要返回重新做过,一次次考验的是耐心,耐得耐不 得寂寞是数据分析人员需要接受的挑战。

数据小兵 | www.datasoldier.net

2


数据小兵

www.datasoldier.net

关注数据分析解决方案

[4]、数据分析工具不如思路重要,但了解得多一些却总是有帮助的 数据分析的意识、思路,态度,对业务问题的把握,这些都比用什么工具更 重要,所以,不要太纠结用 SPSS 还是 SAS,甚至 Excel,哪怕一个表格、一 张图,如果你有精力,有需求,掌握更多总不是什么坏事。

[5]、能不能表达出来同样重要 在学校里甚至有一句话叫做“做没做不是关键,能不能用 PPT 表达出来最实 在”,做研究论文,你可能花费了比别人更多的精力,可在答辩时却没法表达出 来,有人甚至没有做,却用 PPT“做”出了效果。不是鼓励大家拼口才造假,重点 在于希望能认识到表达的重要性,我们的结果如果一直只留在自己的心里,那永

数据小兵 | www.datasoldier.net

3


数据小兵

www.datasoldier.net

关注数据分析解决方案

远都是你的,而不是大家的,你做到了,就要能表达出来,没表达出来,也可以 说没做。演讲、表达、可视化的东西是每一个数据分析师应该关注的。

数据小兵 | www.datasoldier.net

4


数据小兵

www.datasoldier.net

数据小兵精选特供

SPSS 聚类分析经典案例分享 时间:2015 年 5 月 8 日 | 栏目: SPSS 课堂

| 作者: 数据小兵

这篇文章最早于 2010 年 5 月发布在百度博客,获得万余次阅读,案例过程 涉及到 spss 层次聚类中的 Q 型聚类和 R 型聚类,单因素方差分析,Means 过程 等,是一个很不错的多种分析方法联合使用的 聚类分析案例。 案例数据源: 有 20 种 12 盎司啤酒成分和价格的数据,变量包括啤酒名称、热量、钠含量、 酒精含量、价格。数据来自《SPSS for Windows 统计分析》data11-03。

【一】问题一:选择那些变量进行聚类?——采用“R 型聚类” 1、如何筛选聚类变量?现在我们有 4 个变量用来对啤酒分类,是否有必要 将 4 个变量都纳入作为分类变量呢?热量、钠含量、酒精含量这 3 个指标是要通 过化验员的辛苦努力来测定,而且还有花费不少成本,如果都纳入分析的话,岂 不太麻烦太浪费?所以,有必要对 4 个变量进行降维处理,这里采用 spss R 型 聚类(变量聚类),对 4 个变量进行降维处理。输出“相似性矩阵”有助于我们

数据小兵 | www.datasoldier.net

1


数据小兵

www.datasoldier.net

数据小兵精选特供

理解降维的过程。

2、4 个分类变量量纲各自不同,这一次我们先确定用相似性来测度,度量 标准选用 pearson 系数,聚类方法选最远元素,此时,涉及到相关,4 个变量可 不用标准化处理,将来的相似性矩阵里的数字为相关系数。若果有某两个变量的 相关系数接近 1 或-1,说明两个变量可互相替代。

3、只输出“树状图”就可以了,个人觉得冰柱图很复杂,看起来没有树状 图清晰明了。从 proximity matrix 表中可以看出热量和酒精含量两个变量相关 系数 0.903,最大,二者选其一即可,没有必要都作为聚类变量,导致成本增加。 至于热量和酒精含量选择哪一个作为典型指标来代替原来的两个变量,可以根据 专业知识或测定的难易程度决定。(与因子分析不同,是完全踢掉其中一个变量 以达到降维的目的。)这里选用酒精含量,至此,确定出用于聚类的变量为:酒 精含量,钠含量,价格。

数据小兵 | www.datasoldier.net

2


数据小兵

www.datasoldier.net

数据小兵精选特供

【二】问题二:20 中啤酒能分为几类?——采用“Q 型聚类” 1、现在开始对 20 中啤酒进行聚类。开始不确定应该分为几类,暂时用一个 3-5 类范围来试探。Q 型聚类要求量纲相同,所以我们需要对数据标准化,这一 回用欧式距离平方进行测度。

数据小兵 | www.datasoldier.net

3


数据小兵

www.datasoldier.net

数据小兵精选特供

2、主要通过树状图和冰柱图来理解类别。最终是分为 4 类还是 3 类,这是 个复杂的过程,需要专业知识和最初的目的来识别。我这里试着确定分为 4 类。 选择“保存”,则在数据区域内会自动生成聚类结果。

【三】问题三:用于聚类的变量对聚类过程、结果又贡献么,有用么?— —采用“单因素方差分析” 1、聚类分析除了对类别的确定需讨论外,还有一个比较关键的问题就是分 类变量到底对聚类有没有作用有没有贡献,如果有个别变量对分类没有作用的

数据小兵 | www.datasoldier.net

4


数据小兵

www.datasoldier.net

数据小兵精选特供

话,应该剔除。

2、这个过程一般用 单因素方差分析来判断。注意此时,因子变量选择聚 为 4 类的结果,而将三个聚类变量作为因变量处理。方差分析结果显示,三个聚 类变量 sig 值均极显著,我们用于分类的 3 个变量对分类有作用,可以使用,作 为聚类变量是比较合理的。 【四】问题四:聚类结果的解释?——采用”均值比较描述统计“ 1、聚类分析最后一步,也是最为困难的就是对分出的各类进行定义解释, 描述各类的特征,即各类别特征描述。这需要专业知识作为基础并结合分析目的 才能得出。

2、我们可以采用 spss 的 means 均值比较过程,或者 excel 的透视表功能对 各类的各个指标进行描述。其中,report 报表用于描述聚类结果。对各类指标 的比较来初步定义类别,主要根据专业知识来判定。这里到此为止。 数据和思路均摘自《SPSS for Windows 统计分析》书中。

如果您认为小兵博客的内容有价值,对你有帮助, 可用支付宝扫一扫右侧的二维码进行少额打赏支持。

数据小兵 | www.datasoldier.net

5


数据小兵

www.datasoldier.net

关注数据分析解决方案

当前位置: 首页 >> 工具方法 >> 正文 时间:2013-5-26 2:23:13

Spss K-means 聚类分析案例——某移动公司客户细分模型 发布:数据小兵 | 分类:工具方法 |

聚类分析在各行各业应用十分常见,而顾客细分是其最常见的分析需求,顾 客细分总是和聚类分析挂在一起。

顾客细分,关键问题是找出顾客的特征,一般可从顾客自然特征和消费行为 入手,在大型统计分析工具出现之前,主要是通过两种方式进行“分群别类”,第 一种,用单一变量进行划段分组,比如,以消费频率变量细分,即将该变量划分 为几个段,高频客户、中频客户、低频客户,这样的状况;第二种,用多个变量 交叉分组,比如用性别和收入两个变量,进行交叉细分。 事实是,我们总是希望考虑多方面特征进行聚类,这样基于多方面综合特征 的客户细分比单个特征的细分更有意义,这正是 spss 聚类分析可以做到的,以 下通过 k-means 聚类分析做一个小小案例来展示。

【数据来源及分析内容】

《SPSS 统计分析高级教程》telco.sav,是反映移动电话用户使用手机情况 的数据集。包含 7 个变量:用户编号、工作日上班时间电话时长、工作日下班时 间电话时长、周末电话时长、国际电话时长、总通话时长、平均每次通话时长, 现希望对移动用户细分,了解他们不同的手机消费习惯。根据研究调研及经验, 认为移动用户应分为 5 个主要消费群体。数据分析工具:spss,参考教程:张 文彤,《 SPSS12 统计分析高级教程》。

【数据分析流程】

数据小兵 | www.datasoldier.net

1


数据小兵

www.datasoldier.net

关注数据分析解决方案

【获取数据】

【数据预处理】

现在存储于后台的数据太多了,以前做项目担心没有真实可靠的数据,现在 这个问题没有那么复杂,但数据太多却引发了其他问题。辛苦采集到的数据口径 不一致,存储格式不同,不符合数据分析要求还有待派生新的变量。 这些过程看似简单却非常有必要!

数据小兵 | www.datasoldier.net

2


数据小兵

www.datasoldier.net

关注数据分析解决方案

仅仅预处理以上这些问题还不够,当数据分析方法复杂时,我们还需对采集 的数据进行筛选构成小的数据集,对于数据集中变量的分布、缺失、描述统计指 标进行一定程度的分析。

数据小兵 | www.datasoldier.net

3


数据小兵

www.datasoldier.net

关注数据分析解决方案

【数据分析】

K-means 聚类也称快速聚类,可以用于大量数据进行聚类的情形。在开始 聚类之前,需要分析者自己制定类数目,并不是一次指定,可以经过多轮反复分 析,根据实际情况最终判定最优类的数目。 K-means 聚类是采用计算距离的方 式测度变量间的亲疏程度,距离直接影响最终的结果,因此慎重审核数据质量。 数据小兵 | www.datasoldier.net

4


数据小兵

www.datasoldier.net

关注数据分析解决方案

数据小兵 | www.datasoldier.net

5


数据小兵

www.datasoldier.net

关注数据分析解决方案

数据小兵 | www.datasoldier.net

6


数据小兵

www.datasoldier.net

关注数据分析解决方案

数据小兵 | www.datasoldier.net

7


数据小兵

www.datasoldier.net

关注数据分析解决方案

数据小兵 | www.datasoldier.net

8


数据小兵

www.datasoldier.net

关注数据分析解决方案

【分析结论】

做一个数据分析的项目,不能不下结论! 雷声大,雨点小的事情,作为数据分析师千万要避免发生。提交数据分析报 告,对分析下结论,对业务问题进行及时解决,养成这个良好的习惯。

数据小兵 | www.datasoldier.net

9


数据小兵

www.datasoldier.net

关注数据分析解决方案

参考自: 《SPSS12 高级教程》,张文彤 《Clementine 数据挖掘方法及应用》,薛薇 采用聚类分析的数据挖掘技术进行电信市场客户分群 电子商城的用户分析运用——客户细分(Customer Segmentation)的相关 问题列表!

数据小兵 | www.datasoldier.net

10


数据小兵 www.datasoldier.net 关注数据分析解决方案

当前位置: 首页 >> 工具方法 >> 正文 时间:2013-9-2 22:30:52

SPSS 聚类分析:用于筛选聚类变量的一套方法 发布:数据小兵 | 分类:工具方法 |

聚类分析是常见的数据分析方法之一,主要用于市场细分、用户细分等领域。 利用 SPSS 进行聚类分析时,用于参与聚类的变量决定了聚类的结果,无关变 量有时会引起严重的错分,因此,筛选有效的聚类变量至关重要。 案例数据源: 在 SPSS 自带数据文件 plastic.sav 中记录了 20 中塑料的三个特征,分别是 tear_res(抗拉力)、gloss(光滑度)、opacity(透明度),相关经验表面这 20 中塑料可以分为 3 个种类,如果用这三个变量进行聚类,请判断和筛选有效 聚类变量。 一套筛选聚类变量的方法

一、盲选 将根据经验得到的、现有的备选聚类变量全部纳入模型,暂时不考虑某些变 量是否不合适。本案例采用 SPSS 系统聚类方法。对话框如下:

数据小兵 | www.datasoldier.net

1


数据小兵 www.datasoldier.net 关注数据分析解决方案

统计量选项卡:聚类成员选择单一方案,聚类数输入数字 3; 绘制选项卡:勾选树状图; 方法选项卡:默认选项,不进行标准化; 保存选项卡:聚类成员选择单一方案,聚类数输入数字 3; 二、初步聚类 这是盲选得到的初步聚类结果,并且在数据视图我们可以看到已经自动生成 了一个聚类结果变量,这个变量非常有用。

数据小兵 | www.datasoldier.net

2


数据小兵 www.datasoldier.net 关注数据分析解决方案

三、方差分析 是不是每一个纳入模型的聚类变量都对聚类过程有贡献?利用已经生成的 初步聚类结果,我们可以用一个单因素方差分析来判断分类结果在三个变量上的 差异是否显著,进而判断哪些变量对聚类是没有贡献的。

分析——比较均值——单因素方差分析: 选项选项卡:勾选均值图

由方差分析我们很明确的得知,纳入模型的三个聚类变量,其中只有“透明 度”指标在各个分类上有显著的差异,也就是说分类有效果,让每个分类的差异 很大,而两外两个变量则在三个分类上没有显著差异,没有很好的类别区分度, 所以,我们可以认为,这两个变量对聚类无作用或者无贡献,可考虑踢出模型。 我们还想从可视化的角度来查看和判断,单因素方差分析为我们提供了均值图, 可惜,这三个图却最容易误导我们的判断,因为 spss 在自动生产均值图时为每 一个变量单独制图,而且分配不同的纵轴坐标,导致每个图看起来都有非常大的 差异,从视觉上迷惑我们做出错误的判断。 数据小兵 | www.datasoldier.net

3


数据小兵 www.datasoldier.net 关注数据分析解决方案

这里需要改进! 四、均值描述 为改进以上 SPSS 默认选项的不足之处,我们需要自己生成三个变量在不 同类别上的均值,means 过程可以帮助到我们。

从数字上来看,抗拉力(6.8、6.7、7.1)、光滑度(9.3、9.4、9.2)两个 指标在三个类别上并没有多大的差异,而对聚类有贡献的透明度指标在不同类别 上区分度非常明显。

数据小兵 | www.datasoldier.net

4


数据小兵 www.datasoldier.net 关注数据分析解决方案

五、多线均值图 克服纵轴刻度的方法是将这三个指标放在同一个坐标轴上进行对比,也就是 制作一个多线均值图。

此时,结果已经一目了然了。 综上,我们可以将抗拉力、光滑度两个指标从模型中剔除,只留下透明度一 个指标再进行聚类。

数据小兵 | www.datasoldier.net

5


数据小兵 www.datasoldier.net 关注数据分析解决方案

我们发现,前后两次聚类的结果一模一样,用一个指标可以代替以前三个指 标的进行聚类。 我们这样做的意义何在?如果能将这些整理成为规则,形成经验,那我们就 可以不用测量抗拉力和光滑度这两个指标了,你不觉得多测量两个指标成本会增 加吗?

文章思路参考自:文彤老师《SPSS11 高级教程》 [Spss K-means 聚类分析案例——某移动公司客户细分模型]

数据小兵 | www.datasoldier.net

6


数据小兵

www.datasoldier.net

数据小兵精选特供

技巧:如何看 SPSS 聚类分析冰柱图? 时间:2015 年 6 月 29 日 | 栏目: SPSS 课堂

| 作者: 数据小兵

SPSS 聚类分析方法的冰柱图,形状类似于冬天屋檐上垂下的冰柱,因此得 名。 横轴: 案例(Case)表示被聚类的对象; 纵轴: 群集数(Number of clusters)表示被聚成几类,观察冰柱图应从最后一行 开始。 如上图示例:被聚类的是指标 X1,X2,X3,X4,X5,X6,X7,X8 ,从下往 上看,当聚成 7 类时,X4 和 X8 聚成一类,其他个案自成一类;当聚成 6 类时 X4 和 X8 和 X6 聚成一类,其他个案自成一类, 简单的方法:用白板将 6 类以下挡上可以看出如图:

数据小兵 | www.datasoldier.net

1


数据小兵

www.datasoldier.net

数据小兵精选特供

当聚成 5 类时 X4 和 X8 和 X6 和 X2 聚成一类,其他个案自成一类;当聚成 4 类时 X4 和 X8 和 X6 和 X2 聚成一类,X5 和 X3 聚成一类,其他个案自成一类,依 次聚成 3 类、2 类、1 类。 冰柱图的优点是不仅可以显示出不同类数时个案所属的分类结果,还能表现 出聚类的过程步骤,生动形象;缺点是不能表现出聚类过程中距离的大小。 来自:百度文库 最后编辑:数据小兵 数据小兵博客,已经整理和发布的 SPSS 聚类分析文章如下,供大家参考。 相关阅读: SPSS 聚类分析精典案例分享 用因子分析结果进行聚类分析 SPSS 聚类分析:用于筛选聚类变量的一套方法 Spss K-means 聚类分析案例——某移动公司客户细分模型 数据分析也要讲究打组合拳 数据的标准化处理及实际应用 SPSS 聚类分析是否需要对数据进行标准化处理?

数据小兵 | www.datasoldier.net

2


数据小兵

www.datasoldier.net

数据小兵精选特供

问:SPSS 聚类分析是否需要对数据进行标准化处理? 时间:2015 年 6 月 24 日 | 栏目: SPSS 课堂 | 作者: 数据小兵

为了从不同的角度反映一组数据的特征,我们往往追求更多的指标,这些数 据单位不同,数量级也不同,这就需要我们在开始分析之前 对数据进行标准化 处理。聚类分析就经常遇到,因为聚类就是利用多个指标来对样本进行分类的统 计方法。 那么,SPSS 聚类分析是否需要对数据进行标准化处理呢?经常有人提问。

首先,从聚类分析的概念上来判断。 聚类的要求是同一类的样本有较大的相似性,不同类的样本有较大的差异 性。那如何才算是有相似性呢?这里经常用的就是判断点与点之间的距离是不是 很近或者有相关性,只要是用距离来判断,就涉及到不同指标的运算,而量纲和 数量级上的差异对距离的判断有很大的影响,为了消除这种影响,因此在聚类前 需要对数据进行标准化处理。 有一种例外情况,如果采用相关系数来衡量个体的相似性,可以不做标准化 处理,也留给大家讨论。 其次,我们从聚类操作对话框来看。 SPSS 软件封装了 3 种聚类方法,TwoStep、Kmeans、Hierarchical。 先来看 TwoStep 聚类,如下图对话框。

数据小兵 | www.datasoldier.net

1


数据小兵

www.datasoldier.net

数据小兵精选特供

SPSS 明确指出需要对连续变量进行标准化操作,这个选项非常适合初学者, 把数据质量的因素直接考虑进去,我们只需要按照提示一步步来完成即可。 再来看 Kmeans 聚类,如下图,

我们发现,SPSS 并没有在这个过程中预装标准化操作,因此对于刚接触 SPSS 的人来说,就会造成一定的困惑或者麻烦,会认为完全按照 spss 的菜单项操作 就可万无一失,从这一例子来看,SPSS 初学者一定不能有这样的惰性思维,SPSS 为我们提供便捷菜单操作的同时,我们仍然不能放弃基本的数据分析思维。

数据小兵 | www.datasoldier.net

2


数据小兵

www.datasoldier.net

数据小兵精选特供

再看 Hierarchical 聚类过程,对话框如下图,

spss 同样预装了数据标准化操作,SPSS 菜单操作的便捷一目了然。 数据小兵博客总结 讲到这里,大家对这个问题应该比较清晰。小兵再次提醒大家,不管 SPSS 是否在菜单选项中提供数据标准化处理,作为分析师,首先我们要有提前标准化 的思维习惯,数据标准化也是数据预处理中的一项重要工作。 数据小兵博客,已经整理和发布的 SPSS 聚类分析文章如下,供大家参考。 相关阅读: SPSS 聚类分析精典案例分享 用因子分析结果进行聚类分析 SPSS 聚类分析:用于筛选聚类变量的一套方法 Spss K-means 聚类分析案例——某移动公司客户细分模型 数据分析也要讲究打组合拳 数据的标准化处理及实际应用 SPSS 聚类分析是否需要对数据进行标准化处理?

数据小兵 | www.datasoldier.net

3


数据小兵

www.datasoldier.net

关注数据分析解决方案

当前位置: 首页 >> 数据观点 >> 正文 时间:2014-1-7 23:16:27

数据积累不足,不可轻易下结论 发布:数据小兵 | 分类:数据观点 |

2012 年美国大选,据说奥巴马选举胜出的重要因素就是用数据说话。他有 个强大的 数据挖掘团队,能挖掘每位选民背景、观点、倾向性、兴趣,财富等 信息,据此针对性的发出贴切的邮件,以赢取选票。类似的案例层出不穷,都在 突出和强调数据分析的巨大作用,实际上,在电子商务、零售运营中,数据并不 是万能的,还需要根据原始数据的具体情况作出适当的判断。

有一种情况,叫做“数据积累不足,趋势不明显” 我们用新开淘宝店铺或者某新产品刚上市不久来举例,

如上图,宝贝 A 连续两周销售 21 件,宝贝 B 仅销售 11 件,此时库存的货 品数已经不足,现在需要根据销售情况作出补货的决定,从销售数据来看,宝贝 A 销售 21 件,宝贝 B 销售 11 件,用数据说话,是不是 A 更受市场欢迎,需要 加大补货量呢?你有足够的数据证明宝贝 A 一定比 B 更具有吸引力吗? 新开淘宝店铺,初期阶段有效流量较少,客户购买记录,客户访问记录都比 较少,一个新产品刚上架,市场销售数据零零散散,用于描述销售状况的数据不 足够多,此时,业务人员的头脑需要清醒一些。 数据积累不足,关键在于把握数据发展趋势及决策时间 数据小兵 | www.datasoldier.net

1


数据小兵

www.datasoldier.net

关注数据分析解决方案

实际的销售数据是这样的,

随着销售时间的延长,A 和 B 两个产品的销售状况发生了逆转,宝贝 B 的 市场潜力被释放出来,而 A 产品却失去了市场吸引力,销售逐步下滑,最终 B 从第四周开始稳健上扬,从销售的趋势来看,补货时不应过早下结论,而是待销 售趋势明显后,再做结论,给 B 产品多补货。右侧的曲线图清晰的表达出这一 点。 新产品上架,有一个市场的适应阶段,它的整个生命周期受消费者青睐程度 影响,如宝贝 A 和 B,前两周的销售数据记录太少,销售得趋势不够明显,如果 此时仓促下结论,将造成不必要的损失。 诸如此类的问题,关键是要抓住和把握数据的趋势,以及准确的选择补货时 间。也即“数据积累到什么时间后才开始决策”以及“如何判断数据发展的趋势”这 两个问题。

数据小兵 | www.datasoldier.net

2


数据小兵

www.datasoldier.net

关注数据分析解决方案

当前位置: 首页 >> 工具方法 >> 正文 时间:2013-4-16 13:1:48

SPSS 因子分析经典案例分享 发布:数据小兵 | 分类:工具方法 |

因子分析已经被各行业广泛应用,各种案例琳琅满目,以前在百度空间发表 过相关文章,是以每到 4 至 6 月,这些文章总会被高校毕业生扒拉一遍,也总能 收到各种魅惑的留言,因此,有必要再次发布这经典案例以飨读者。 什么是因子分析? 因子分析又称因素分析,传统的因子分析是探索性的因子分析,即因子分析 是基于相关关系而进行的数据分析技术,是一种建立在众多的观测数据的基础上 的降维处理方法。其主要目的是探索隐藏在大量观测数据背后的某种结构,寻找 一组变量变化的共同因子。 因子分析能做什么? 人的心理结构具有层次性,即分为外显和内隐。但是作为具有同一性的个体 来说,内隐的方面总是和外显的方面相互作用,内隐方面制约着外显特征。所以 我们经常说,一个人的内在自我会在相当程度上决定他的外在行为特征,表现为 某些行为倾向具有高度的一致性或相关性。 反过来说,我们可以通过对个体进行系统的观察和测量,从一组高度相关的 行为倾向(可观测)中,探索到某种稳定的内在心理结构(潜存在),这就是因 子分析所能做的。 具体来说主要应用于: (1)个体的综合评价:按照综合因子得分对 case 进行排序; (2)调查问卷效度分析:问卷所列问题作为输入变量,通过 KMO、因子特 征值贡献率、因子命名等判断调查问卷架构质量; (3)降维处理,结果再利用:因子得分作为变量,进行

聚类

或其他分

析。

案例描述:

数据小兵 | www.datasoldier.net

1


数据小兵

www.datasoldier.net

关注数据分析解决方案

高中大家都读过吧,那是一个以成绩论英雄的时代,理科王子、文科小生是 时代标签。为什么我们会将数学、物理、化学归并为理科,其他的归并为文科, 有没有数据支持?今天我们将用科学的方法找到答案。 100 个学生数学、物理、化学、语文、历史、英语成绩如下表(部分),请 你来评价他们。

这是一个有趣的案例,你可以客观的观测到每一科目的成绩,但你可以直接 看到理科、文科的情况吗?6 个科目的成绩是我们观测到的外在表现,隐藏在其 中的公共因子你找到了吗?如果我们针对 6 科目做降维处理,会得到什么结果, 拭目以待。 SPSS 分析过程 6 科目成绩作为 6 个原始变量,利用 SPSS 进行因子分析,具体步骤请参照 各

因子分析教程

,默认亦可,不在讨论范围之内。

公共因子命名:解释的清楚、有无实际意义

经过 SPSS 降维,由公因子方差表看出,默认提取两个公因子,能够解释差 异的 81%,似乎暗合文科和理科。 数据小兵 | www.datasoldier.net

2


数据小兵

www.datasoldier.net

关注数据分析解决方案

我们试图通过旋转后进行因子的命名与解释,这似乎一点也不难,因子 1 与语文、历史、英语三科最相关,均在 0.8 相关度以上,因子 2 与数学、物理、 化学相关,也基本达到 0.8 以上,这正好与我们经常说的文科和理科不谋而合, 没有理由不这样命名。

因子得分排序:综合评价 为公共因子合理命名之后,因子分析并没有结束,一般可以将因子得分作为 变量,用于后续分析步骤。 本例:100 名学生按照文科和理科因子得分进行排序,可以用(语文+历时+ 英语)及(数学+物理+化学)平均值验证因子得分排序是否合理,同时,也可以 观测因子得分为负值时是否影响排序。

数据小兵 | www.datasoldier.net

3


数据小兵

www.datasoldier.net

数据小兵精选特供

关于 SPSS 因子分析的几点总结 时间:2015 年 4 月 14 日 | 栏目: SPSS 课堂 | 作者: 数据小兵

对因子分析的几次尝试与实践,有一些新的认识,整理分享到博客里和大家 交流讨论。 因子分析与主成分分析的区别 关于这个问题,见诸各大论坛、博客,还有百度知道等栏目,这里引用期刊 论文中的文字加以说明。 1、主成分分析: 是研究如何通过少数几个主成分来解释多变量的方差一协方差结构的分析 方法,也就是求出少数几个主成分(变量),使它们尽可能多地保留原始变量的信 息,且彼此不相关。它是一种数学变换的方法,即把给定的一组变量通过线性变 换,转换为一组不相关的变量(两两相关系数为 0,或样本向量彼此相互垂直的 随机变量)。在这种变换中,保持变量的总方差(方差之和)不变。同时具有最大 方差,称为第一主成分;具有次大方差,称为第二主成分。 在主成分分析中,最终确定成分是原始变量的线性组合。每个主成分都是由 原有 p 个变量线性组合得到。在诸多主成分 Z i 中,Z 1 在方差中占的比重最大, 说明它综合原有变量的能力最强,越往后主成分在方差中的比重也小,综合原信 息的能力越弱。

数据小兵 | www.datasoldier.net

1


数据小兵

www.datasoldier.net

数据小兵精选特供

2、因子分析: 因子分析是寻找潜在的起支配作用的因子模型的方法。因子分析是根据相关 性大小把变量分组,使得同组内的变量之间相关性较高,但不同的组的变量相关 性较低。每组变量代表一个基本结构,这个基本结构称为公共因子。对于所研究 的问题就可试图用最少个数的不可测的所谓公共因子的线性函数与特殊因子之 和来描述原来观测的每一分量。通过因子分析得来的新变量是对每个原始变量进 行内部剖析。因子分析不是对原始变量的重新组合,而是对原始变量进行分解, 分解为公共因子和特殊因子两部分。具体地说,就是要找出某个问题中可直接测 量的具有一定相关性的诸指标,如何受少数几个在专业中有意义、又不可直接测 量到、且相对独立的因子支配的规律,从而可用各指标的测定来间接确定各因子 的状态。 因子分析总结语 1、主成分分析在于对原始变量的线性变换,注意是转换、变换;而因子分 析在于对原始变量的剖析,注意是剖析,是分解,分解为公共因子和特殊因子。 2、这两种分析法得出的新变量,也就是成分或者因子,并不是原始变量筛 选或者提出后剩余的变量。

数据小兵 | www.datasoldier.net

2


数据小兵

www.datasoldier.net

数据小兵精选特供

3、因子分析只能解释部分变异(指公共因子),主成分分析能解释所有变 异(如果提取了所有成分)。 4、主成分分析,有几个变量就至少有几个成分,一般只提取能解释 80%以 上的成分;因子分析,有几个变量不一定有几个公共因子,因为这里的因子是公 因子,潜在的存在与每一个变量中,需要从每一个变量中去分解,无法解释的部 分是特殊因子。

5、spss 因子分析过程对各变量间量纲和单位造成的影响,默认自动进行标 准化处理,因此不必要在开始之前单独进行数据标准化处理,因为,标准化与否 结果一致。 6、spss 因子分析重要结果:KMO 值,此值是否进行计算与变量个数、样本 个数有关,不一定会在每次执行中都显示,如没有此结果,可通过调整变量和样 本的比例实现。 因子分析可以提供的重要结果是什么?

数据小兵 | www.datasoldier.net

3


数据小兵

www.datasoldier.net

数据小兵精选特供

1、因子,因子正确命名之后,易于理解和解释因变量。比如获利因子、偿 债因子、成长因子等等;在科研论文中的表现形式为:**问题的因素分析。 2、每一个因子的权重,每一个变量的权重。它的贡献在于替代主观评分、 拍脑袋制定各影响因素的权重,比如层次分析法。 3、因子得分变量,SPSS 将因子得分作为单独的变量保存起来。可以用该变 量进行深层次的分析,比如作为变量用于聚类分析。 4、因子综合得分,主要的应用在于综合评价研究对象,比如一个城市的综 合水平,一支股票的综合状况等,用法一般为排序比较得分大小,或者分为不同 档次进行均值比较。

数据小兵 | www.datasoldier.net

4


数据小兵

www.datasoldier.net

数据小兵精选特供

用因子分析结果进行聚类分析 时间:2015 年 5 月 2 日 | 栏目: SPSS 课堂

| 作者: 数据小兵 |

得到因子得分并不是最终的结果,降维是为了使我们的思路更加集中,但降 维结束后得到的却未必是我们所期望的。为了更好的加以分析,我们可以在降维 因子分析的基础上对得到的潜在因子进行聚类或者计算出综合因子得分进行排 序。综合因子得分的计算前面我已经讨论过了,卢文岱老师的书里介绍了因子分 析之后进行聚类分析,放在这里学习学习。

【案例】:美国洛杉矶 12 个地区的调查数据(人口、校龄、总雇员、房价、 服务),该数据可到人大经济论坛 spss 版块下载。 【案例说明】:12 个地区的 5 个调查指标数据经过因子分析处理后,找到 两个潜在的因子:人口因子和福利因子。并且 spss 自动保存了 12 个地区的因子 得分。这个案例的目的在于评价 12 个地区经济情况。我们现在走一条曲线救国 的思路:利用人口因子和福利因子两个变量进行聚类,看看这 12 个地区有哪些 是相似的(同一类),这些相似的地区有哪些特征,从而集中评价属于同一类的 某几个或一个地区。 一、操作: (1)因子 1,因子 2 为参与聚类的变量,地区编号为标示。 (2)盲聚类,先给定范围 2-4 类,然后对 2、3、4 进行比较,最终确定聚 为几类。 (3)个人较喜欢输出树状图,讨厌冰柱图。要求输出聚类的树状图。采用 欧氏距离平方聚类。 (4)不需要进行标准化处理,因为两个因子本身就是无量纲变量。 二、重要结果(对比): 数据小兵 | www.datasoldier.net

1


数据小兵

www.datasoldier.net

数据小兵精选特供

(1)从聚类分析输出结果很难看出各地区在经济特性方面的区别。

(2)亮点:因子得分-类别散点图,可视化的效果。

数据小兵 | www.datasoldier.net

2


数据小兵

www.datasoldier.net

数据小兵精选特供

上图显示,2、3、7 为第二类,处在人口因子和福利因子都较低的左角,可 以认为从 5 个经济指标来看均较差的地区;1、4、5 为第一类,人口因子(人口 数和就业人数)得分较低,福利因子较高,即人口和就业者较少,但福利条件去 很不错的地区群(这可是梦寐以求的好地方啊!);6、8、9、11、12 为第三类 人口因子较高,福利因子较低,人口多,就业者多,比如 hn,人口第一大省, 但整体经济实力较东部地区差,福利跟不上。 做法:因子得分 2 为纵轴、因子得分 1 为横轴(谁横谁纵没有定论),用地 区编号标识地区,用聚类得到的各地区类别号分组。(依次做分为 2 类的、3 类 的、4 类的散点图进行比较)。 三、讨论: 就此案例而言,最终聚为几类合适?我个人的思路:从上面的散点图可以看 出,编号为 10 的这个地区,偏离 1、5、4 地区较远,聚类过程显示这四个地区 为同一类。鉴于 1、5、4 更集中,10 地区较远,用异常值的思想来讲,10 地区 为异常值,单独放一边讨论,视为特例对待。其他 11 个地区分为 3 类。即最终 聚为 4 类(或 3 类+1 特例)。 从这个案例可以看出,我们很有必要在 spss 既得结果中提取其他可视化图 形,比如上面这个因子得分散点图,使分析效果更加显著。

如果您认为小兵博客的内容有价值,对你有帮助,可用支付宝扫一扫右侧的 二维码进行少额打赏支持。认准支付宝账号:dtminer@163.com。

数据小兵 | www.datasoldier.net

3


数据小兵

www.datasoldier.net

数据小兵精选特供

基于 SPSS/EXCEL 主成分分析的顾客偏好分析 时间:2015 年 5 月 4 日 | 栏目: SPSS 课堂

| 作者: 数据小兵 |

本文选取卢文岱老师《SPSS for windows 统计分析》一书中的案例,采取 SPSS 和 Excel 两个工具相结合的方法,对书中提及的 SPSS 主成分分析给出一般 操作流程,介绍主成分分析在市场研究中的应用。

数据小兵 | www.datasoldier.net

1


数据小兵

www.datasoldier.net

数据小兵精选特供

数据小兵 | www.datasoldier.net

2


数据小兵

www.datasoldier.net

数据小兵精选特供

数据小兵 | www.datasoldier.net

3


数据小兵

www.datasoldier.net

数据小兵精选特供

数据小兵 | www.datasoldier.net

4


数据小兵

www.datasoldier.net

数据小兵精选特供

数据小兵 | www.datasoldier.net

5


数据小兵

www.datasoldier.net

数据小兵精选特供

数据小兵 | www.datasoldier.net

6


数据小兵

www.datasoldier.net

数据小兵精选特供

文章整理自:卢文岱老师《SPSS for windows 统计分析》 备注:本文最早发布在数据小兵的百度空间,由于百度空间即将关闭,所以 重新将此篇文章发布在此。

数据小兵 | www.datasoldier.net

7


数据小兵

www.datasoldier.net

数据小兵精选特供

如果您认为小兵博客的内容有价值,对你有帮助, 可用支付宝扫一扫右侧的二维码进行少额打赏支持。 认准支付宝账号:dtminer@163.com。

数据小兵 | www.datasoldier.net

8


数据小兵

www.datasoldier.net

关注数据分析解决方案

当前位置: 首页 >> 数据观点 >> 正文 时间:2013-5-7 0:34:28

数据分析也要讲究打组合拳 发布:数据小兵 | 分类:数据观点 |

组合拳是拳击拳法的一种,在进攻当中利用各种单一拳法的组合连续攻击, 使对手顾此失彼,达到击中对手的目的。联系到

数据分析过程

中,引申为采

取一连套的方法实现一定的目标,而每一拳就是一种分析方法。

【我们遇到这样一个问题】

美国洛杉矶

12

个地区的

5

个经济指标调查数据(总人口、学校校龄、

总雇员、专业服务、中等房价),为对这

12

个地区进行综合评价, 请你出

出主意,我们希望看到这 12 个地区中的某几个区属于同一类型,从而分而治之, 有针对性的做出有意义的措施。

每个地区都有 5 个评价指标,不同地区的同一指标分布不同,一个地区的五 个指标大小有别,差异显著,现在要对着 12 个地区进行评价,这是一个十分苦 恼的事情。

【单拳出击:聚类分析——山重水复疑无路,柳暗花明又一村】

数据小兵 | www.datasoldier.net

1


数据小兵

www.datasoldier.net

关注数据分析解决方案

多个评价指标,希望分而治之,聚类分析无疑是非常棒的选择,分类变量为 总人口、学校校龄、总雇员、专业服务、中等房价:执行 SPSS 聚类过程:

12 个地区最终分为几类?每个类别又有哪些特征呢?这是聚类分析需要解 决的细节。我们以分为 3 类来说明现在遇到的新问题,树形图让我们十分清晰的 看到每一次聚类的细节,哪些地区最先被归并为一类,因为他们最相似,但是, 我们对着树形图又能下什么结论呢,望洋兴叹吧,树形图就是大忽悠。

数据小兵 | www.datasoldier.net

2


数据小兵

www.datasoldier.net

关注数据分析解决方案

不妨看看每一类别下 5 个评价指标的均值比较吧,这似乎有所帮助,虽然还 是一片混乱,但最少我们很容易发现,第二类在每一个指标中的均值都是糟糕的, 急需政府加大管理、投资的力度,第一类的地区人口不算多,但各项指标的均值 都是组内最高的,可以说第一类的 1、4、5、10 四个地区是不用美国政府操心了, 但结论是我们依然没有非常清晰的描述评价结果。

问题出在哪里?或许是用来评价地区经济情况的指标过于多了吧!

【组合拳:左手因子分析,右手聚类分析,组合拳更具挖潜力】

我们已经意识到一直困扰我们的其实是评价指标过多,这就需要降维,因子 分析算是不错的选择,尝试是突破瓶颈的最好实践办法。接下来,我们试图将总 人口、学校校龄、总雇员、专业服务、中等房价这 5 个指标进行降维处理,不是 直接踢出,而是寻找隐匿其中潜在的因素。

数据小兵 | www.datasoldier.net

3


数据小兵

因子分析

www.datasoldier.net

关注数据分析解决方案

是基于相关关系而进行的数据分析技术,是一种建立在众多的观

测数据的基础上的降维处理方法。其主要目的是探索隐藏在大量观测数据背后的 某种结构,寻找一组变量变化的“共同因子”。

提取前两个因子,可以解释 5 个指标的 93.4%,在没有损失太多信息的同时, 获得相对良好的解释能力,这是一个稳赚不赔的卖卖。

旋转之后的载荷结果令我们十分的满意,因子 1 与“校龄、服务、房价”三 个指标相关性极强,而这三项总是居民乐开花,地区教育水平高,多项服务,房 价且不高,这是理想的居住场所,可以命名为“福利因子”,在看因子 2,与“总 人口、总雇员”极相关,这是“人口因子”。

5 个评价指标,现在可以用 2 个因子来代替,此时来描述每个地区的经济情 况就非常的方便了,在此基础上再“打一拳”,会有什么样的惊喜?现在,聚类 分析的步骤不变,参与聚类的变量为:福利因子和人口因子。

数据小兵 | www.datasoldier.net

4


数据小兵

www.datasoldier.net

关注数据分析解决方案

什么?你没看错,分类的结果和直接用聚类分析的结果是一致的,打组合拳和一拳的结果相 同,觉得很遗憾是么?不,我们的最终分析目的是 12 地区的综合评价,现在来看:

第一类地区,首先这些地区的福利因子较好,校龄、服务项目两基础设施方 面都非常完善,但是享受好福利的同时,需要更多的钱购买房子,这是富人区吧。 第二类地区,人口因子、福利因子都比较差,应当受到更多关注和支持。第三类, 很明显是人口众多地区,但这里的居民未公平享受到各项福利,唯一心里安慰的 是房价不高吧。 数据小兵 | www.datasoldier.net

5


数据小兵

www.datasoldier.net

关注数据分析解决方案

到此,我们可以看出,组合拳的结果更加丰富,在不真实反映地区经济分类 后,还挖潜出影响各地区排名的潜在因素,让市政决策者能够更加清晰的综合评 价各地区优缺点,有的放矢。 在确定分析目标之后,数据分析过程中不妨打出组合拳,将获得更多收获,找到 更本质的解决方案。

数据小兵 | www.datasoldier.net

6


数据小兵

www.datasoldier.net

关注数据分析解决方案

当前位置: 首页 >> 数据观点 >> 正文 时间:2013-2-20 14:26:35

数据分析师不是数羊的 发布:数据小兵 | 分类:数据观点 |

咨询业内有这样一个经典的故事: 一个农民赶着羊群在草原上走,迎面碰到一个人对他说:“我可以告诉你, 你的羊群有几只羊。”随即,他用卫星定位技术和网络技术将信息发到总部的数 据库……片刻后,他告诉农民羊群共有 1460 只羊,并且要求农民给他一只羊作 为报酬,农民答应了。随后,农民对他讲:“如果我能说出你是干嘛的,你能否 把羊还给我?”那人说,“行”。农民说:“你是一个咨询顾问。”那人很惊讶,问农 民是怎么知道的。农民说:“有三个理由足以让我知道: 1.我没有请你,你自己 就找上门来; 2.你告诉了我一个早已知道的东西,还要向我收费; 3.一看就知 道你不懂我们这一行,你抱的根本不是羊,而是一只牧羊犬。”

这个笑话在咨询界广为流传,并有不同的公司版本。有意思的是,许多资深 咨询顾问看到这个笑话并不感到恼怒,而是会心地一笑。公开场合下,他们一定 会非常自信地说,咨询非常深刻地影响企业的战略,因此具有非常重要的价值。 不过私底下,他们对于是否真的“能改变世界”这一点并不够自信。 按照数据分析的逻辑把故事改编: 一个农民有一群羊,农民找了一个年轻帮手,农民问他:“你看看这群羊怎 么样?”,随即,年轻人走入羊群进行考察,并用各种统计方法和不同工具进行 了全面的判断,最后,他告诉农民羊群共有 1460 只羊,仅有 5 只公羊、其余为 母羊 500 只和羊羔,根据一些特征,羊群可以分为“安静肯吃型”、“四处跑动型”、 数据小兵 | www.datasoldier.net

1


数据小兵

www.datasoldier.net

关注数据分析解决方案

“活蹦乱跳型”三类(肯吃:不挑食,育肥快;跑动:经常在羊群外围跑动,挑食; 小羊:活蹦乱跳,它们的行为会影响成年羊)。农民听后既惊讶又失望,惊讶的 是一个没放过羊的人和他一样了解羊群,失望的是他所听到的都是他早已知道 的。 目前,数据分析员、数据分析师就有这样的境遇。他们是企业内部组建的“智 囊”,被要求执行有关战略、解决业务问题等任务,被寄予厚望。不过,真正体 会到价值的企业怕是不多,就像改编的故事一样,数据分析员、数据分析师们很 快掌握了企业内部的“经验”,每个问题都能说出 123,但为企业增值做出的贡献 又能有多少呢? 富有经验的人才一直被企业所重视,但必须把“有经验”和“拍脑袋”区分开来 看待,因为很多人把“拍脑袋”这顶绿帽子扣到了所有领导者头上,而从未估计这 个人是否富有经验。数据分析被重视后,在职位上获得工作经验比以前更加快速 和方便,一个熟悉数据分析、数据挖掘的新人,能够根据企业多年经营数据,快 速入行,快速积累工作经验,然而,面对不期而遇的业务问题却多少有些茫然, 此时,他们被打回原形,甚至不如一个身经百战的营业员。有头脑的领导者都知 道:一线基层员工更加清楚这个业务问题为何会发生、应该如何解决! 或者你也可以如此回答农民的问话: “羊群共有 1460 只羊,仅有 5 只公羊、其余为母羊和羊羔,可以繁殖的母 羊有 500 只。当务之急是卖掉可以出栏的小羊,马上引进一定数量的的种公羊, 以解决当前种羊和母羊比例严重失调的问题;根据对市场的预估,5 月份每卖掉 一只小羊将比 4 月份多赚 200 元,因此,我们必须把握先机,4 月前完成育肥, 5 月清栏;对于“四处跑动型”羊,有必要采取一侧前后两条腿绑绳的方法限制其 大范围跑动,目的在于减少不必要的能力损耗,对于“活蹦乱跳型小羊”应采取与 成年羊隔离的放养的方式”。 读了前面的内容,现在我们重新认识一下什么是数据探索:

数据探索,就是在大量数据集中发现有用关系的系统性的方法,在开始之前, 您不必知道寻找的是什么,您可以通过拟合不同模型和研究不同关系来探索数 据,直到您发现有用的信息为止。 数据小兵 | www.datasoldier.net

2


数据小兵

www.datasoldier.net

关注数据分析解决方案

数据分析员、数据分析师不应当只会“数羊”,不应当只是发现本应该发现 的“经验和常识”!而应当掌握数据探索,发现潜在的价值,预见可能将发生的某 种“坏的未来”,同时也要预见“好的未来”,在规避风险的同时,也能抓住机遇, 让数据探索体现价值。 鉴于以上内容,可以从另外一个角度看数据分析师的层级(看图不解释):

数据小兵 | www.datasoldier.net

3


数据小兵

www.datasoldier.net

数据小兵精选特供

如何用 SPSS 和 Clementine 处理缺失值、离群值、极值? 时间:2014 年 12 月 20 日 | 栏目:

SPSS 课堂

| 作者: 数据小兵

一、什么是预处理、预分析? 高质量数据是数据分析的前提和分析结论可靠性的保障。尽管在获取数据源 时数据分析师格外谨慎,耗费大量的时间,但数据质量仍然需持续关注。不管是 一手还是二手数据源,总是会存在一些质量问题。同时,为了满足数据分析、挖 掘的实际需要,对噪声数据如何处理,是丢弃还是补充,或者重新计算新的数据 变量,这些不是随意决定的,这就是数据预处理的一个过程,是在数据分析、挖 掘开始前对数据源的审核和判断,是数据分析必不可少的一项。本文暂只简单讨 论一下缺失值、异常值的处理。 二、如何发现数据质量问题,例如,如何发现缺失值?

1、SPSS 是如何做到的? (1)系统缺失值、空白值 每一个变量均有可能出现系统缺失或者空白,当数据量巨大时我们根本无法 用眼睛看出是否有缺失,最明智的做法是把这项任务交给数据分析工具,比如 Excel,可通过数据有效性、筛选、查找、计数等功能去实现,如果是 SPSS 数据 源,可以通过描述统计之“频率”项来实现。

数据小兵 | www.datasoldier.net

1


数据小兵

www.datasoldier.net

数据小兵精选特供

上图,五个变量中,家庭人均收入有效样本 94,有 6 个无效样本,在 spss 数据区域显示为空白值。其他变量均没有缺失,对于这 6 个缺失值是留是踢需要 谨慎。 (2)变量取值分布 这一项不容忽视,一般由于输入错误、数据本身或者其他原因造成。这里分 分类变量和数值变量进行检查。 分类变量取值分布检查: 描述统计之“频率”项,可以对变量以及变量取值进行频次统计汇总,因此, 此处仍然采用“频率”项。

上图,我们已经确认是否献血样本全部有效,但是不代表这个变量没有其他 噪声。通过此变量取值分布的考察,我们可以发现是否献血有 4 个水平,分别为 “0”“1”“No”“Yes”,但实际上,该变量的取值至于两个水平,“No”“Yes”, 其余两个取值是错误操作导致的,这是系统缺失值,可以通过重新赋值进行处理。 数值变量取值分布检查: 数值变量取值分布不宜采用“频次”的统计,一般可通过直方图、含有正态 检验的直方图来实现。

数据小兵 | www.datasoldier.net

2


数据小兵

www.datasoldier.net

数据小兵精选特供

上图,数值变量的直方图,可以清楚的看到其分布情况。可以初步判断存在 异常值。 (3)离群值、极值 在 SPSS 中可以通过“箱图”直观的看到异常值,探索分析项或者箱图功能 可实现。

数据小兵 | www.datasoldier.net

3


数据小兵

www.datasoldier.net

数据小兵精选特供

上图,为 spss 探索分析结果,还可以设置分组变量。可以直观的发现,家 庭人均收入存在极值,编号为 66,可以快速查找定位。 2、Clementine 是怎么做到的? Data

Audit,数据审核节点示例:以下数据流看图不解释。

首先,建立以上数据流。最后一个为“数据审核”节点,右键选择并打开编 辑:

上图,为 clementine 变量诊断结果,非常直观,图文并茂,而且一张图几 乎说明了数据源各种质量问题。是否无偿献血,取值水平有 4 个,家庭人均收入 最大值有异常,且明确显示有 6 个无效值。其他变量正常。

数据小兵 | www.datasoldier.net

4


数据小兵

www.datasoldier.net

数据小兵精选特供

上图,是 clementine 变量诊断结果中的另外一张图表,我们可以发现家庭 人均收入有一枚极值,六枚无效值。通过上述诊断,数据质量问题一目了然。 三、如何处理缺失值、离群值、极值?

1、SPSS 实现方法

上图,为 spss 变量转换菜单下的重新编码为相同变量选项卡。可以轻松实 现变量重新赋值。主要实现方法:重新编码为相同/不同变量、计算变量、缺失 值分析模块,此处略,后续文章会涉及。 2、Clementine 实现方法 (1)是否无偿献血

重新分类

数据小兵 | www.datasoldier.net

5


数据小兵

www.datasoldier.net

数据小兵精选特供

我们已经清楚的知道,是否无偿献血变量在取值分布上存在问题。在 clementine,需要用 Reclassify 节点进行重新分类,在变量诊断的第一种表格 上选中是否无偿献血变量,点击左上角“生成”按钮,生成一个 Reclassify 节 点。打开该节点,如上图所示,即可完成重新分类。 (2)无效值、空白值的处理

数据小兵 | www.datasoldier.net

6


数据小兵

www.datasoldier.net

数据小兵精选特供

家庭人均收入变量存在 6 个无效值,我们建议保留这 6 个样本,希望通过决 策树算法进行针对性的预测,从而为这 6 个无效值进行赋值。如上图所示进行操 作。然后,选中该变量,点击左上角“生成”按钮,自动生成一个缺失值插补超 级节点。 (3)离群值、极值的处理

家庭收入变量还存在一枚极值,对于该极值,我们采取剔除丢弃处理,在 clementine 变量诊断表格中,如上图操作,点击生成按钮,自动生成一个离群 值和极值超级节点。 (4)以下为 clementine 的处理结果 、

我们将自动生成的两个超级节点,连接在数据流末端,再次进行数据审核, 结果如上图所示,此时,我们可以看到,上述几个问题已经达到合理地解决。最 终我们剔除了一个极值,对其他质量问题采取保守态度进行相应的处理。 数据小兵 | www.datasoldier.net

7


数据小兵

www.datasoldier.net

数据小兵精选特供

上图,为整个过程的数据流图示。 四、总结 1、通过 SPSS 描述统计的相关过程,可以实现数据质量的探索分析并进行相 应的预处理。 2、通过 Clementine 的 Type 节点、Filler 节点、Reclassify 节点、 Data

Audit 等节点可以实现数据质量的探索,而且比 SPSS 更直观,更快捷。 3、相比而言,clementine 在数据分析预处理方面更加优秀,结果可视化程

度较高,直观易懂,而且处理流程简短精悍,虽然通过 spss 或者 excel 也可以 完成这些工作,但我想,如果能合理选择有效驾驭,clementine 是一个不错的 选择,这不是炫耀或者奢侈,更效率更效果的工作才是最终目的。

数据小兵 | www.datasoldier.net

8


数据小兵 www.datasoldier.net 关注数据分析解决方案

当前位置: 首页 >> 数据观点 >> 正文 时间:2014-8-5 13:21:8

为什么说数据分析只是辅助决策的工具而非绝对依据 发布:数据小兵 | 分类:数据观点 |

很久之前,科学界的先辈们就已经意识到人类的主观感觉并不可靠,由主观 感觉得出的结论也往往漏洞百出,从伽利略站在比萨斜塔上丢下那一对小球开 始,人们就不断在探寻那些看似和主观感觉大相径庭的真理,而在现实生活特别 是商业分析中,正确的决策往往和科学理论一样,是不同于我们的主观感受的。

数据分析作为一种严谨而客观的工具,在分析决策中可以弥补我们对直觉的 过分自信,减轻欲望对事实的影响程度,可是即便数据分析已经到了大数据的层 次,也鲜有仅依靠大数据就完成决策的事例,是大数据没得到充分应用,还是其 本身就具有一定的局限性呢? 数据越大,无意义的相关关系就越多 我们日常所说的分析数据得出结论,从统计学的本质上来说就是找出数据 之间的相关关系,两个或多个数据之间存在线性关系,指数关系,服从泊松分布 还是正态分布,这些都是数据分析中具体要完成的工作,随着数据量的增大,数 据之间可能出现的相关关系也就越多。当数量巨大的原始数据一下子摆在面前 时,麻烦就来了。 如美国的飞利浦路灯街区这样的智能检测系统,传感器每时每刻都在采集周 围的环境数据,这些数据在进行分析的时候,各数据之间会出现非常多的相关关 系,这些关系中大部分是无意义的,比如湿度和温度突然出现了负相关,可能只 是因为下了一场雨,而我们要寻找的相关关系,很容易掩埋在这些无用的关系里。

数据分析趋向平庸,忽视杰作 数据分析的理论基础是概率论和统计学的相关学科,所以也就决定了它的一 项基本特征——总是趋于平均,反应大体情况,而对于某些突出优秀的个体,往 往会视而不见。如果我们在六年前进行一次关于智能手机的使用习惯的数据分 析,Iphone 大概会被直接忽略,因为那时 Iphone 刚刚出现不久,在总体数据中 完全占不到比例,应用乔帮主的一句话“用户自己也不知道他们到底要什么”,所 数据小兵 | www.datasoldier.net

1


数据小兵 www.datasoldier.net 关注数据分析解决方案

以在更多的用户接触到 Iphone 之前,他们并不会知道自己需要它,这样的数据 分析出来的结果,Iphone 一定会落选“完美智能手机”的排行榜。 或许正因为这些因素,数据分析(不管加不加“大”字),始终只是作为一种工 具来辅助人们做出理性判断,而不是策略的主要决定来源。 选自:物联中国,原标题:为什么大数据分析在决策中只是“万年辅助”

数据小兵 | www.datasoldier.net

2


数据小兵 www.datasoldier.net 关注数据分析解决方案

当前位置: 首页 >> 数据观点 >> 正文 时间:2013-9-30 11:48:30

数据分析案例:是什么决定你的购买决策 发布:数据小兵 | 分类:数据观点 |

互联网时代,目标消费者需求变幻莫测与时俱进更加难以捉摸,在产品同质 化竞争环境下,谁能率先抓住消费者的心,谁将在销售市场上占有一席之地。以 下是市场调查问卷分析的案例,品牌休闲服购买因素分析,将高速我们是什么决 定购买。

【调查问卷 问题】 在购买品牌休闲服时,您最重视的三个因素?(1)____ (2)____(3)____ (1)品质(2) 价格(3) 服务水平(4) 款式(5)推广方式(6)舒适合体 (7) 体现个性(8) 品牌形象

(9) 流行性(10)其他

以下只针对“购买品牌休闲服重视的第一因素”为例进行分析: 【1】影响购买的第一因素在不同时间段下的变化

数据小兵 | www.datasoldier.net

1


数据小兵 www.datasoldier.net 关注数据分析解决方案

如上表所示,2002 年第一购买因素依次为品质(35.7%)、款式(30.9%)、 舒适(13%)、价格(7.9%)等,与 2001 年度相比,02 年消费者对于品质、 价格、款式以及品牌等因素更加挑剔与重视,而相对而言,对服务和舒适程度略 有下降,可见,服饰质量、流行程度、价格是否实惠是目标消费者非常在意的, 影响购买决策的因素。

【2】看上表,需要眼睛在 2001 年和 2002 年两行之间进行对比,读者需要 花费更多时间去发现表格中数据所能反映的问题。为了进一步为读者考虑,让读 者第一时间看懂图表内涵,可考虑如下柱形图,效果比图表会明显好好很多。二 者表达同一意思,但读图花费的时间,读图难以程度却有显著的不同。

数据小兵 | www.datasoldier.net

2


数据小兵 www.datasoldier.net 关注数据分析解决方案

【3】除了柱形图,还可以考虑饼图的表达方式,如果用单一饼图,势必在 一个大饼上划分了 10 个小块,表达效果下降,因此,最好采用复式饼图,将主 要影响因素放置于左侧,其他因素放置于右侧,符合饼图视觉效果较好,能很大 程度吸引读者的眼球,对读图,读分析报告有一定的帮助。

【4】有没有一种既吸引眼球,而且最能表达数据含义的图表呢?帕累托图 是比较好的选择,也称为主次因素图或主次因素排列图,作图时插入一行累计百 分比的辅助数据即可完成,通过累计百分比曲线,可以很快判断主要因素和次要 因素。如下图所示,品质、款式、舒适程度三个因素对购买决策的累计贡献率达 到 80%,价格对于购买也产生一定的影响,这四个因素是影响消费者购买决策 的主要因素。

数据小兵 | www.datasoldier.net

3


数据小兵

www.datasoldier.net

数据小兵精选特供

问卷利器:SPSS 品牌偏好分析 时间:2015 年 4 月 12 日 | 栏目: SPSS 课堂 | 作者: 数据小兵

(图片选自:爸妈在线)

调查问卷经常遇到品牌偏好的问题,看似是一个多选题,其实不然,它是在 多选题的基础上叠加了顺序等级信息,看下边这个案例: 【SPSS 品牌偏好分析案例】 问:请说出您最喜欢的三个休闲服品牌?(1)_____ (2)______ (3)______ 答:(1)班尼路 (2)真维斯 (3)佐丹奴 (4)堡师龙 (5)苹果 (6) U2(7)其它 案例数据有连续两年的重复调查,因此除单一年度的分析外,还可以进行 两年的对比分析。 【1】2002 年目标消费者选购品牌偏好

数据小兵 | www.datasoldier.net

1


数据小兵

www.datasoldier.net

数据小兵精选特供

主要看第一喜欢品牌,上图显示,受访者对品牌 2 的选择比例最高,达到 71%,远远高出其他品牌,品牌认知度、效应较好。 【2】与往年相比,消费者选购偏好的变化

黄色柱代表 2001 年,很显然,与 2001 年相比,消费者对于品牌 2 的选购倾 向显著上升。品牌 1 下滑、3 也有微小上升。 【3】加权计算综合分,再看各品牌总体受欢迎情况 数据小兵 | www.datasoldier.net

2


数据小兵

www.datasoldier.net

数据小兵精选特供

如果我们规定,第一喜欢、第二喜欢、第三喜欢分别记 5 分、3 分、2 分, 对各品牌表现进行加权,考量各品牌总体受欢迎程度,上图黄色部分显示,品牌 2 一枝独秀表现最突出,综合提升 0.2 分,从竞争对手角度来看,需要重点跟踪 品牌 3 和品牌 1,综合表现持平和有一定增长。如下图所示:

(上一张加权表格的表现力似乎好过这一张柱形图) 【4】不同区域消费者选购偏好

数据小兵 | www.datasoldier.net

3


数据小兵

www.datasoldier.net

数据小兵精选特供

考虑地区维度,表明,华中区域品牌 2 比其他两个区域更受欢迎,其他品牌 表现乏力。 【本篇文章总结】 1、主要维度包括:时间维度、地区维度,根据不同时间、不同区域对比分 析,能发现更多问题; 2、分析工具:SPSS 自定义表格、频率分析,尤其是 Custom Table,非常灵 活,汇总功能丝毫不逊色于 excel 的透视表,以前一直以为 SPSS 的 OLAP 立方和 Excel 的透视表功能相仿,其实不然,Custom Table 才是 SPSS 中比肩 Excel 的 透视表功能。 3、总体感觉,本篇文章有“为了分析而分析”的嫌疑,不过,从中学习与 实践,总算是也能有一点收获。

如果您认为小兵博客的内容有价值,对你有帮助,可用支付宝扫一扫右侧的 二维码进行少额打赏支持。认准支付宝账号:dtminer@163.com。

数据小兵 | www.datasoldier.net

4


数据小兵

www.datasoldier.net

数据小兵精选特供

问卷利器:SPSS 多选题频数分析 时间:2015 年 4 月 12 日 | 栏目: SPSS 课堂 | 作者: 数据小兵击: 508 次

在市场调查问卷中,总会设计一部分多项选择题,对于多选题,一般采用频 数分析,SPSS 提供了专门的多选题频数分析统计分析功能。

【调查问卷示例】 问:您拥有以下哪些品牌的贵宾卡? 答:(1)班尼路(2)真维斯(3)佐丹奴(4)堡师龙(5)苹果 (6)U2 这是一个典型的多选题,在本系列文章所采用的问卷中反映消费者的持卡消 费能力,以下采用 SPSS 多重响应多选题频数分析功能。 【原调查问卷数据组织格式】 调查问卷在录入时,对于被选中的项标示为 1,未选中则为 0,根据选项的 多少,编码如下图黄色部分:

数据小兵 | www.datasoldier.net

1


数据小兵

www.datasoldier.net

数据小兵精选特供

第一步:建立多重响应项集 SPSS 进行多选题频数分析需首先将该问题编码变量合并为一个多重响应项 集,菜单操作:分析——多重响应——定义变量集。

数据小兵 | www.datasoldier.net

2


数据小兵

www.datasoldier.net

数据小兵精选特供

第二步:多重响应项集的频数分析 SPSS 菜单操作为:分析——多重响应——频率,弹框内可看见上一步建立 的项集,确定。 第三步:SPSS 多选题频数分析结果 1 1、个案摘要表

主要显示样本是否有系统缺失,此处可见,共有 171 个缺失值,有效率 96.7% 2、频率分析表

数据小兵 | www.datasoldier.net

3


数据小兵

www.datasoldier.net

数据小兵精选特供

特别注意响应率和普及率两个指标,响应率 6.7%=430/6415,即选择班尼路 vip 的消费者在所有响应中(所有 1 的次数)的比例;而普及率 8.5%=430/5066, 在有效样本中的比例。我们选择用柱形图表达数据效果:

柱形图,一目了然告诉读者结果,所以,在 SPSS 提供现有表格和图形之外, 选择更具有表现力的数据分析图表也是数据分析师的一项重要任务。 第四步:SPSS 多选题频数分析结果 2 如果仅分析到上一步就结束未免过早,在多重响应分析选项中还有一项:交 叉表,即可通过选择分类变量进入,分类统计频数情况,可观测不同分类的变化 情况,对于最终指导工作有很大作用。

数据小兵 | www.datasoldier.net

4


数据小兵

www.datasoldier.net

数据小兵精选特供

可见,与 2001 年相比,真维斯持卡消费的响应率略有下滑(78.6%下滑至 75.3%),这并不是管理者希望看到的,这代表损失了部分目标消费者,相反, 其竞争对手却有不同程度的提高,提示管理者需要重视在 VIP 客户服务方面的质 量。 当然,还可以依据其他分析的维度进行分类,比如收入、年龄段,此处省略。 特别备注:以上数据均来自《服装营销数据分析》一书,分析中得到的观点 不代表官方,切记勿对号入座。

如果您认为小兵博客的内容有价值,对你有帮助,可用支付宝扫一扫右侧的 二维码进行少额打赏支持。认准支付宝账号:dtminer@163.com。

数据小兵 | www.datasoldier.net

5


数据小兵 www.datasoldier.net 关注数据分析解决方案

当前位置: 首页 >> 工具方法 >> 正文 时间:2014-6-10 22:41:54

SPSS 问卷加权处理:是偏心吗? 发布:数据小兵 | 分类:工具方法 |

调查问卷数据分析中经常遇到对数据进行加权的问题,什么是加权?沈浩老 师博客中这样描述:让一些人变得比另一些人更重要!那为什么要加权?为了让 调查数据在特征的分布上更接近实际情况。比如在会员数据中,男女比例是 6:4, 而调查问卷的比例是 7:3,为了使调查结果更贴近真实,首先需要对问卷进行加 权处理,让问卷的分布结构跟实际分布保持一致。

从概念上,加权:通过对总体中的各个样本设置不同的数值系数(即加权因 子-权重),使样本呈现希望的相对重要性程度。通俗一些的公式:设计加权=某 个变量或指标的期望比例/该变量或指标的实际比例。 看一个 SPSS 文件加权案例: 有一家数码产品专营店,它有一大批忠实的会员经常购买。为了更好的经营 好自己即将要开设的网店,在会员中进行了一次购买习惯的问卷调查。在问卷的 校验过程中,他们发现回收的问卷在人口特征的分布上与实际情况不符,会员中 男女比例是 6:4,而问卷中是 7:3,并且男女会员实际在教育水平(1、2、3、4 个档)的占比均为 2:2:4:2。考虑到这两个因素可能对分析结果有较大的影响, 现在需要对问卷数据进行加权处理,使得加权后的性别和教育水平能够符合实际 比例。 数据小兵 | www.datasoldier.net

1


数据小兵 www.datasoldier.net 关注数据分析解决方案

1、汇总问卷数据,计算加权的权重 SPSS 本身具有过硬的数据汇总功能,利用这些功能能够快速准确的对原始 问卷数据进行大范围的汇总,主要在于获知不同男女性别在不同教育水平的人 数,和参与问卷的总人数,然后根据“权重=变量的会员比例/该变量问卷比例”来 计算最终的权重(本案例用这个公式)。 熟悉 excel 电子表格的话,也可以利用 excel 的透视表功能快速对问卷数据 进行汇总并计算权重,这里略过。

表格的“会员比例”即男女会员在教育水平的占比 2:2:4:2,男性 0.6,女性 0.4。 最后一列即根据公式计算而得到的“权重”。

2、将权重数据合并到原始问卷数据中 这个步骤充分显示了 SPSS 合并数据文件的能力,SPSS 合并数据有两种, 一种是增加记录,另外一种是增加变量,我们现在需要把“权重”变量合并到原始 问卷数据文件中,而且要求是和不同性别不同教育水平向匹配及对应的操作。 说得直白一点,其实相当于 excel 的 vlookup 功能,此时发现,spss 的合并 数据比 vlookup 更条件化,简单易于操作。这两种方法没有必要过多对比,你熟 悉哪种选择哪种。最后的效果是:

数据小兵 | www.datasoldier.net

2


数据小兵 www.datasoldier.net 关注数据分析解决方案

3、SPSS 加权个案,将“权重”作为频率变量 选择“数据”菜单最后一项“加权个案”,按照弹出的菜单提出来操作,点击确 定后,加权处理则持续存在于接下来的各种分析操作中,如果不想使用加权处理, 则必须取消加权,这一点需格外注意。

4、加权与不加权,我们来做一个比较 首先,我们看不加权时的问卷数据:

数据小兵 | www.datasoldier.net

3


数据小兵 www.datasoldier.net 关注数据分析解决方案

参与调查的男女比例大概是 7:3,与实际会员比例 6:4 不符,教育程度的比 例也不符合 2:2:4:2。 接下来看加权处理后的效果:

此时,经过加权处理对样本进行校正均衡,使得调查数据在分布上完全和会 员实际分布相符,达到分析的目的,基于这样一个靠近实际情况的数据然后再进 行分析,其各项结论也更趋向于接近实际状况。

记住一点:加权也是篡改数据的方法!谨慎使用! 如果数据有“加权”,我们要明确地告诉客户: 为什么加权? 加权方案的实施过程; 加权对数据的影响,等等; 数据小兵 | www.datasoldier.net

4


数据小兵 www.datasoldier.net 关注数据分析解决方案

通常,我们应该:在数据报告过程中,在图表上同时标明“未加权”和“加权” 的基数;在分析报告可灵活处理,但也应有清晰的、一致的标注; 记住一点:加权也是篡改数据的方法!谨慎使用!(沈浩老师博客语) 参考自: 1.沈浩老师博客:调查数据的加权处理技术 2.张文彤、钟云飞老师:《IBM SPSS 数据分析与挖掘实战案例精粹》第四 章 本篇整理:数据小兵,感谢以上几位老师的原创内容。

数据小兵 | www.datasoldier.net

5


数据小兵 www.datasoldier.net 关注数据分析解决方案

当前位置: 首页 >> 图说数据 >> 正文 时间:2013-9-21 20:56:52

图说:通过 SPSS 信度分析进行调查问卷题目的优化 发布:数据小兵 | 分类:图说数据 |

信度分析是调查问卷分析中经常提到一项工作,信度(Reliability)即可靠 性,它是指采用同样的方法对同一对象重复测量时所得结果的一致性程度,在 SPSS 统计分析工具中,可通过菜单操作完成此项分析。 读者您好,这篇博文中的图片较长,不易在 多张文档中显示。放大并读图的办法:

1:鼠标右键图片,将图片另存至桌面,即 可放大查看; 2:点击博文的标题,直接进入网页地址查 看,标题中内嵌有超链接。

其他相关文章推荐: http://hi.baidu.com/datasoldier/item/084bd2ff7280ff703c198b4c 数据小兵 | www.datasoldier.net

1


数据小兵

www.datasoldier.net

关注数据分析解决方案

当前位置: 首页 >> 工具方法 >> 正文 时间:2013-11-12 22:47:58

SPSS 移动平均一点也不神秘 发布:数据小兵 | 分类:工具方法 |

预测才是数据分析的真谛,通过历史数据,预测未来的各种可能性,针对预 测的结果防范于未然。预测方法有很多种,包括定性以及定量方法。其中,时间 序列预测,它不用过多考虑内部具体的、错综复杂的影响因素,是“历史重演”的 惯性假设条件下,基于外部数据的对未来的估计。 什么是移动平均?

最简单,也是最常用的时间序列分析是移动平均法,任何周期的预测值都是 过去几个周期观测值的平均值。要执行移动平均法,首先需要选择一个跨度,即 每次移动平均的周期。例如,我们假设数据是每月的数据,跨度选择 5 个月,因 此下个月的预测值是前 5 个月值得平均值。注意,跨度越大,预测序列就越平滑。 SPSS 统计分析工具提供了便捷的移动平均模型,今天一起来揭开它的神秘。 SPSS 移动平均分析实例 数据“SPSS 移动平均分析实例”,其中变量 sales 为某个公司 1986-1997 年 间各个季度某商品的销售量数据,用移动平均法来预测 1998 年 1 季度销售额及 98 年 2 季度的销售额。

数据小兵 | www.datasoldier.net

1


数据小兵

www.datasoldier.net

关注数据分析解决方案

菜单操作步骤 (1)“转换”——“创建时间序列” (2)将“销售量”移动至右侧框内,新的变量命名为:移动平均; (3)函数选择:先前移动平均,跨度选择 5; (4)单击“更改” 备注:(此案例旨在说明 SPSS 移动平均的过程,跨度的大小不再考虑。)

此时,在数据集界面,我们可以看到,1998 年 1 季度预测值为:4490.52, 如果我们继续这个步骤来预测 1998 年 2 季度,由于 1998 年 1 季度并没有真实 的观测值,一般在这种情况下,多采用相应的预测值代替,按照同样的方法,我 们可以得到,1998 年 2 季度的预测值为:4483.43。 如何来衡量移动平均的误差

最简单是采用平均绝对误差 MAE,为 n 个预测值与观测值误差的平均值。 通过计算新的变量,可轻松得到。本例跨度为 5 的情况下,其 MAE 为:569.5, 可见该值较大,平均绝对误差比较大,移动平均的效果并不明显。 数据小兵 | www.datasoldier.net

2


数据小兵

www.datasoldier.net

关注数据分析解决方案

必须得强调的几点 (1)时间序列存在比较明显的季节性趋势时,不适于使用移动平均; (2)时间序列存在比较明显的发展趋势时,不适于使用移动平均;

上面这个案例,从时间序列图上,可以看出,存在明显的趋势因素及季节性 因素,综合而言,并不适用于使用移动平均,最后由较高的 MAE 也可以反映出 这一点,因此在使用移动平均前需要重点观察序列的趋势。

数据小兵 | www.datasoldier.net

3


数据小兵

www.datasoldier.net

关注数据分析解决方案

当前位置: 首页 >> 工具方法 >> 正文 时间:2013-2-1 0:24:4

图解 SPSS 指数平滑 发布:数据小兵 | 分类:工具方法 |

所有预测中,指数平滑是最常见的方法,最初只应用于无趋势、非季节作为 基本形式的时间序列分析,后经多位统计学家的深入研究和发展,是它更具灵活 性,其目的在于除去时间序列的不规则变化,使预测值和实测值键的均方差为最 小。

数据小兵 | www.datasoldier.net

1


数据小兵

www.datasoldier.net

关注数据分析解决方案

数据小兵 | www.datasoldier.net

2


数据小兵

www.datasoldier.net

关注数据分析解决方案

数据小兵 | www.datasoldier.net

3


数据小兵

www.datasoldier.net

关注数据分析解决方案

数据小兵 | www.datasoldier.net

4


数据小兵

www.datasoldier.net

关注数据分析解决方案

数据小兵 | www.datasoldier.net

5


数据小兵

www.datasoldier.net

关注数据分析解决方案

数据小兵 | www.datasoldier.net

6


数据小兵

www.datasoldier.net

关注数据分析解决方案

数据小兵 | www.datasoldier.net

7


数据小兵

www.datasoldier.net

关注数据分析解决方案

数据小兵 | www.datasoldier.net

8


数据小兵

www.datasoldier.net

数据小兵精选特供

SPSS 坐标饼图 时间:2015 年 4 月 22 日 | 栏目: SPSS 课堂 | 作者: 数据小兵 |

散点图大家都不会陌生,属于点图类。那如果现在想把点换成饼元素,每个 点均表示为含有 3-5 个成分的饼元素,这就是 SPSS 的坐标饼图,或者说叫 SPSS 散点饼图。写这篇文章的目的不是为了作图而作图,主要在于坐标饼图有其存在 的优势,它在表达多个维度下各成分变化方面独具优点,非常符合国人交叉报表 的表达方式,可以作为常用的数据分析图表。

软件工具

数据小兵 | www.datasoldier.net

1


数据小兵

www.datasoldier.net

数据小兵精选特供

SPSS 坐标饼图采用 SPSS16 软件绘图功能实现(SPSS 高版本已经取消了交互 式图表功能),Excel 是否能实现此处不讨论。 数据要求 三个分类变量,最好其中有一个为时间维度,其时间变化趋势更明显,图的 表达能力更强。 案例展示 现有 880 份调查问卷数据(部分变量),主要调查受访者年龄、婚否、性别 与生活方式、首选早餐的关系。请从图表可视化的角度来展示这些关系(卡方检 验角度略)。 1、graphs——legacy——interantive——pie——plotted 2、其他可默认

数据小兵 | www.datasoldier.net

2


数据小兵

www.datasoldier.net

数据小兵精选特供

3、图表编辑,此处略。 4、结果

从第一张图中我们似乎看到某些商机,随着年龄的增大,选择早餐时对麦片 的需求越来越大,看看商超里的燕麦片冲剂就知道这很符合生活的逻辑。同时,

数据小兵 | www.datasoldier.net

3


数据小兵

www.datasoldier.net

数据小兵精选特供

年轻人更喜欢在上班途中经过早餐店、车时食用早餐,这或许就是“早餐工程” 的理由吧。当然,谷类是最佳的选择,因为不管年轻、年迈都是一个不错的选择。

如果您认为小兵博客的内容有价值,对你有帮助,可用支付宝扫一扫右侧的 二维码进行少额打赏支持。认准支付宝账号:dtminer@163.com。

数据小兵 | www.datasoldier.net

4


数据小兵

www.datasoldier.net

数据小兵精选特供

SPSS 条形图视频演示案例教程 时间:2015 年 8 月 20 日 | 栏目:

SPSS 课堂 | 作者: 数据小兵

一份数据分析报告,一定少不了柱形图,经常用于各成份之间的对比,也用 于具有一定时间序列趋势变化的呈现,总之是报告图表类型中必不可少的一个选 择。 我们的眼睛比较习惯于从左至右或者从上到下依次浏览每一根柱形,围绕这 一个读图习惯,如果能对柱形图的柱形顺序、颜色变化稍作调整,你会发现柱形 图能有很多种变化,今天案例讲到的条形图就是其中之一了。 赠送一个 SPSS 条形图的案例教程给大家,自行观赏学习。

数据小兵 | www.datasoldier.net

1


数据小兵

www.datasoldier.net

数据小兵精选特供

数据小兵 | www.datasoldier.net

2


数据小兵

www.datasoldier.net

数据小兵精选特供

数据小兵 | www.datasoldier.net

3


数据小兵

www.datasoldier.net

数据小兵精选特供

数据小兵 | www.datasoldier.net

4


数据小兵

www.datasoldier.net

数据小兵精选特供

数据小兵 | www.datasoldier.net

5


数据小兵

www.datasoldier.net

数据小兵精选特供

数据小兵 | www.datasoldier.net

6


数据小兵

www.datasoldier.net

数据小兵精选特供

数据小兵 | www.datasoldier.net

7


数据小兵

www.datasoldier.net

数据小兵精选特供

数据小兵 | www.datasoldier.net

8


数据小兵

www.datasoldier.net

数据小兵精选特供

数据小兵 | www.datasoldier.net

9


数据小兵

www.datasoldier.net

数据小兵精选特供

数据小兵 | www.datasoldier.net

1 0


数据小兵

www.datasoldier.net

数据小兵精选特供

数据小兵 | www.datasoldier.net

1 1


数据小兵

www.datasoldier.net

数据小兵精选特供

本案例配套视频演示教程,感兴趣的同学请加微信号 "SPSS 实战案例”, 微信扫一扫上图左侧二维码添加后,输入关键词“条形图”,根据指示去百度网 盘下载。下图为视频截图,谢谢。

数据小兵 | www.datasoldier.net

1 2


数据小兵

www.datasoldier.net

数据小兵精选特供

数据小兵 | www.datasoldier.net

1 3


数据小兵

www.datasoldier.net

关注数据分析解决方案

当前位置: 首页 >> 工具方法 >> 正文 时间:2014-2-25 23:8:51

用 SPSS 绘制质量控制图 发布:数据小兵 | 分类:工具方法 |

控制图(Control Chart)又称管理图,它是用来区分是由异常原因引起的 波动,还是由过程固有的原因引起的正常波动的一种有效的工具。控制图通过科 学的区分正常波动和异常波动,对工序过程的质量波动性进行控制,并通过及时 调整消除异常波动,使过程处于受控状态。不仅如此,通过比较工序改进以后的 控制图,还可以确认此过程的质量改进效果。因此,控制图在质量管理中有着广 泛的应用。

控制图由样本均值服从于正态分布演变而来。正态分布可用两个参数即均值 μ 和标准差 σ 来决定。正态分布有一个结论对质量管理很有用,即无论均值 μ 和 标准差 σ 取何值,产品质量特性值落在 μ±3σ 之间的概率为 99.73%,落在 μ±3σ 之外的概率为 100%-99.73%= 0.27%,而超过一侧,即大于 μ+3σ 或小于 μ-3σ 的概率为 0.27%/2=0.135%≈1‰,,休哈特就根据这一事实提出了控制图。图上 有中心线(CL)、上控制限(UCL)和下控制限(LCL),并有按时间顺序抽取的样本 统计量数值的描点序列。 多数情况下是通过人工来绘制控制图,首先通过计算器计算各种指标,然后 再一步步地绘制控制图。在这个过程中,往往会出现计算错误或者误差过大等原 数据小兵 | www.datasoldier.net

1


数据小兵

www.datasoldier.net

关注数据分析解决方案

因,使得最后的控制图达不到预期的效果,更为严重的是能使质量管理者产生错 误的判断,做出错误的决策,从而产生较大的损失。也有的企业利用 excel 绘制 控制图,从而提高其精确度,减少误差。然而,用 excel 绘制控制图的步骤比较 繁杂,不容易掌握,容易在绘制过程中产生操作性失误,造成数据集的失真。 SPSS 的图形工具非常强大,具有很强的统计分析功能。在质量数据管理中, 经常要用到一些图形方法和工具,例如帕雷托图、直方图、散点图、控制图、序 列图等,SPSS 均可以有效地应用这些图形方法和工具来处理质量数据信息,这 些功能集中在 Graph 菜单中。 因此,此处我们采用 SPSS 来绘制控制图。 SPSS 控制图的选择依据(X-R 或 X-S 和 X-MR) 根据主要测量值分组变量的具体情况,可选择 X-R、X-S,即均值-极差和均 值-标准差控制图;或者选择 X-MR,个体-移动均值控制图。 1、分组变量中有大于 10 个组值,宜于计算标准差,故选择 X-S 控制图。 2、分组变量中有小于 10 个组值,选择计算极差,即 X-R 控制图。 3、分组变量中只有 1 个组值,则选择个体-极差控制图,即 X-MR 控制图。 案例:个体-移动极差控制图

数据 data17-18 为某搅拌站实测混凝土坍落度数据,现在使用控制图看看工 艺质量情况。

数据小兵 | www.datasoldier.net

2


数据小兵

www.datasoldier.net

关注数据分析解决方案

步骤: 分析—质量控制—控制图—个体/移动全距—个案为单元 过程度量:选择“测量值变量;标注子组:选择“编号” 自动生成以下两组控制图,可用于综合解读。

数据小兵 | www.datasoldier.net

3


数据小兵

www.datasoldier.net

关注数据分析解决方案

第一张是均值 X 的控制图,第二张是移动均值的控制图。上面我们已经完 成了数字层面的分析,最关键的则是发现数据的异常和寻找异常发生的原因。由 于本案例数据源来自书籍,并无具体案例数据的实际描述,因此不宜在此处做过 多的解读。详细的规则解读可参考以下内容。 质量控制图的使用规则

既然质量控制图是为了帮助我们及时发现指标的不正常状态,那么当我们看 到上面的图以后,需要观察和分析是不是存在异常的点或异常的变化趋势,如何 定义这些异常,需要有一套控制规则:即样本点出界或者样本点排列异常:

点超出或落在 ULC 或 LCL 的界限;(异常) 近期的 3 个点中的 2 个点都高于+2σ 或都低于-2σ,近期 5 个点中的 4 个点 都高于+σ 或都低于-σ;(有出现异常的趋势) 连续的 8 个点高于中心线或低于中心线;(有偏向性) 连续的 6 个点呈上升或者下降趋势;(有明显的偏向趋势) 连续的 14 个点在中心线上下呈交替状态。(周期性,不稳定) 查资料时发现不同的地方对控制规则有不同的定义,我这里参照的是 SPSS 里面的规则,具体应该可以根据实际的应用环境进行调整。(此段引自:网站数 据分析博客 质量控制图 一文)

数据小兵 | www.datasoldier.net

4


数据小兵

www.datasoldier.net

关注数据分析解决方案

当前位置: 首页 >> 数据观点 >> 正文 时间:2013-4-1 23:14:36

多维度数据分析 发布:数据小兵 | 分类:数据观点 |

在零售业中,数据分析大多采用汇总、对比、趋势预测、交叉等几类方法, 尤其是交叉分析使用率颇高。交叉分析,顾名思义,是指对数据在不同维度进行 交叉展现,进行多角度结合分析的方法,弥补了独立维度进行分析没法发现的一 些问题。可以说,数据分析的维度弥补了众多分析方法的独立性,让各种方法通 过不同属性的比较,细分,使分析结果更有意义。 横看成岭侧成峰。我们在看待事物的时候,如果从不同角度看,往往会得出 不同的结果。在对业务数据进行分析时,也会有这种现象。如现在对某个区域的 销售数据进行分析。如果以年销售额来分析的话,也许可以发现每年的销售收入 都在成比例增长。这是一个不错的结果。但是如果从客户的角度出发进行分析, 管理员可能会发现一些老客户的销售额在逐渐降低。

什么是数据分析的维度? 我们如何理解多维数据中的维?维是人们观察事物的角度,同样的数据从不 同的维进行观察可能会得到不同的结果,同时也使人们更加全面和清楚地认识事 物的本质。

数据小兵 | www.datasoldier.net

1


数据小兵

www.datasoldier.net

关注数据分析解决方案

当数据有了维的概念之后,便可对数据进行多维分析操作,常见的多维分析 操作主要有:钻取(上钻和下钻)、切片、切块、旋转。钻取:钻取是改变维度 的层次,变换分析的粒度。钻取包括上钻和下钻,上钻是在某一维上将低层次的 细节数据概括到高层次的汇总数据的过程,减少了分析的维数;下钻则是相反, 它是将高层次的汇总数据进行细化,深入到低层次细节数据的过程,增加了分析 的维数。切片和切块:在多维分析中,如果在某一维度上限定了一个值,则称为 对原有分析的一个切片,如果对多个维度进行限定,每个维度限定为一组取值范 围,则称为对原有分析的一个切块。在多维分析中,维度都是按某一顺序进行显 示,如果变换维度的顺序和方向,或交换两个维度的位置,则称为旋转。 多维度数据分析的典型描述 比如一个典型的商品销售数据库,记录了商品销售的详细情况,则我们可从 这么几个方面来对销售数据进行分析:从产品的角度,可以按产品的类别、品牌、 型号来查看产品的销售情况;从客户的角度,可以按客户的类别、地区等来查看 产品的购买情况;从销售代表的角度,可以按销售代表的部门、级别等来查看产 品销售业绩;从时间的角度,可以按年度、季度、月份等来观察产品销售的变动 情况。其中产品、客户、销售代表、时间分别是四个不同的维度,每个维度都从 不同方面体现了销售数据的特征,而每个维度又可按粒度的不同划分成多个层 次,称为维度成员,多维分析中另一个重要的概念是数据指标,简称指标,指标 代表了数据中的可度量的属性,在上面的销售数据中有两个重要的指标是销售数 量和销售金额。 多维度数据分析的典型案例

数据小兵 | www.datasoldier.net

2


数据小兵

www.datasoldier.net

关注数据分析解决方案

看起来还不错,显示的信息非常丰富,左边包含了以天为单位时间维和产品 维,可以使用展开按钮进行汇总和展开,就像是细分的操作;上面的表头部分分 两层罗列了地域维和指标维,Excel 的透视表提供了丰富的设置,默认展现基于 各个维度的汇总数据,让我们可以从“总-分”的角度观察数据,这对数据分析 非常有用。假如我们使用上面的透视表进行交叉分析发现数据是否存在异常? 使用从总体到细节的分析方法,首先可以从查看每天销售额和转化率的汇总 数据开始,折叠产品维之后观察最右侧的指标汇总列就可以看到每日汇总数据; 如果某一天的销售额或转化率出现了大幅的下滑,我们就可以结合各种维度寻找 问题的原因,就是基于各种维度的细节数据,展开产品维观察当天的哪类产品销 售出现了问题,然后结合地域维的交叉数据,可以定位哪类商品在哪个省份的销 售出现了问题,这样就有效地将问题定位到了细节的层面,能够更好地发现问题, 进而解决问题。所以交叉分析其实正是体现了分析“分而析之”的本意。 参考文章:[网站数据分析]博客 多维交叉分析

数据小兵 | www.datasoldier.net

3


数据小兵

www.datasoldier.net

数据小兵精选特供

问:SPSS 自带案例数据从哪里下载? 时间:2015 年 7 月 21 日 | 栏目: 小兵问答

| 作者: 数据小兵

对于学习 SPSS 的同学们来说,从哪里得到案例数据真的是一个比较有共性 的问题,SPSS 实战案例微信号以及我的博客经常收到这样的留言和咨询。 1 百度一下,其实就有答案了

数据小兵 | www.datasoldier.net

1


数据小兵

www.datasoldier.net

数据小兵精选特供

看到了吧,只要你愿意动手搜索,百度总能给你意外惊喜,第一条是我从网 络上搜集整理出的材料,包含 SPSS 统计软件和自带案例数据的下载,第三条是 CSDN 网友上传的案例数据打包材料,这些是不是你需要的? 2 高大上:SPSS

安装路径文件下,早就给大家准备好了

这是经管之家 SPSS 专版中网友的精彩回复,没错,SPSS 在安装过程中,早 已将自带案例数据保存在你的硬盘中了,根本就不需要你费尽心思去“跪求”。 3 本站搜集整理:可直接下载

SPSS 统计软件自动案例数据,>>>直达下载 严重申明:以上案例数据版权归 SPSS 母体机构所有,仅供学习,请勿用于 其他用途,本站提及的相关材料均来自互联网公开渠道,如有侵权,请及时告知 本站,本站将第一时间进行撤销处理。 另外,数据小兵博客近期推出【问答】栏目,如果你有 SPSS 相关疑问,请 在本站留言或评论,也可以私信我的微博,微博名:数据小兵,本站将竭诚为你 提供免费咨询。 数据小兵博客运营微信号:SPSS 实战案例,欢迎扫码订阅,全是免费的哦。

数据小兵 | www.datasoldier.net

2


数据小兵

www.datasoldier.net

数据小兵精选特供

SPSS 统计分析微信公众号推荐 时间:2015 年 8 月 22 日

学习 SPSS 的伙伴们越来越多,有的朋友喜欢在电脑上专心致志的练习, 还有的朋友喜欢随时随地利用碎片时间浏览一些小知识,SPSS 微信公众平台受 到大家追捧,一大批 SPSS 微信号开始运营起来,这么多号你如何来选择呢? 今天我为大家推荐几款,非广告。 1SPSS 实战案例

微信号:spsser 功能介绍:和数据小兵学 SPSS,探讨业务数据分析,致力数据化运营。 内含 SPSS 案例教程,学习心得体会,以及 SPSS 资源下载和咨询服务。 还包括数据分析基础知识和方法,SPSS 作为工具,最终服务于数据,让数据集产生价 值,这也是数据分析/挖掘的目的。

数据小兵 | www.datasoldier.net

1


数据小兵

www.datasoldier.net

数据小兵精选特供

2 一起学 SPSS

微信号:lizh_SPSS 功能介绍:由《SPSS 常用统计分析教程(第 4 版)》编委会创办,提供实例素 材以及投稿,将不定期推送使用技巧文章。 有知识点,有案例,有具体操作和解读,内容丰富,因为其背后是一本书籍。 这本书,学 spss 的应该都知道。

3SPSS 统计学习

微信号:spssxuexi 功能介绍:本平台以及配套课程和课程群致力于提高大学生、研究生以及有 需要的科研人员,需要学习统计分析及软件应用的在职人员的统计理论水平与软 件操作技能。 一个很用心的微信,配套了云课堂视频课程,作者是在校学生,有思想,有 干劲。 数据小兵 | www.datasoldier.net

2


数据小兵

www.datasoldier.net

数据小兵精选特供

4 民航医学

微信号:mhyx1991 功能介绍:民航医学读者服务平台。 从名字上虽然感觉和 SPSS 无关,但内有一栏目“师兄讲统计”却是 SPSS 的内容,还很精彩。查阅方法:在微信搜索中搜索“民航医学 spss”即可。

5 皮肤科的统计学家

微信号:statistician_derma 功能介绍:见证生活,工作,思维的变革,分享生活体验,介绍皮肤病和统计学 知识。 小巧玲珑的 SPSS 微信号,内容包括医院业务培训,统计学知识。很有意思。

数据小兵 | www.datasoldier.net

3


数据小兵

www.datasoldier.net

数据小兵精选特供

学习 SPSS 和统计学是很有意思的事情,欢迎大家踊跃推荐你喜欢的 SPSS 微信号,共同学习。

数据小兵 | www.datasoldier.net

4


数据小兵

www.datasoldier.net

关注数据分析解决方案

当前位置: 首页 >> 工具方法 >> 正文 时间:2014-4-19 23:40:49

来这儿,SPSS 论文不用愁 发布:数据小兵 | 分类:工具方法 |

每年在 5 月前后的这段时间内,“毕业论文”这个关键词热度总是趋势性的大 幅增长,临近毕业总有一批人为自己的论文发愁,Ta 们忙着求职或者考研,没 有预留太多的时间来完成这一项“学以致用”的体验。现在,还有一部分朋友正在 为自己的毕业论文发愁,原因是不会使用 SPSS,那么来这个博客就对了。 SPSS 是高校研究论文中经常用到的一款统计分析工具,界面友好,菜单丰 富,操作简易,非常适合非专业或者专业的学生们。我一直的观点是,把使用 Excel 的时间分给 SPSS 多一点,你会透过数据发现背后的规律,从统计观念重 新理解你所面对的数据。

在这儿,我整理了经常在论文使用的 SPSS 分析方法,供大家参考,同时, 如果需要更深的交流,也可在这篇文章后面留言,或者微博我(@数据小兵)。

数据小兵 | www.datasoldier.net

1


数据小兵

www.datasoldier.net

关注数据分析解决方案

1、SPSS 统计分析软件、案例源数据下载地址 做 SPSS 论文,首先需要下载和安装 SPSS 统计分析软件,这篇文章中提 供了 SPSS16、SPSS17、SPSS19 版本的下载,当然这些安装文件都是无需破 解的(说到这,我开始冒汗),它们都来在伟大的互联网,或许它不应该出现, 大家将就着用吧,且用且珍惜。

2、方差分析:让“数据分析”告诉商家哪种饲料效果更好 为了提高收益,农场主开始饲养猪,现在,有四种不同品牌的饲料推广员来 到农场,都说自己的饲料效果最好,农场主难以在他们之中做出选择,因此,他 请了你帮助他选择最好的饲料来饲养猪。这是一个非常容易理解的方差分析案 例,不容错过。

3、显著性水平 a,多大才合适? a 显著水平是经常遇到的,在假设检验中,显著性水平 a 的确定是至关重要 的问题。显著性水平反映了拒绝某一原假设时所犯错误的可能性,或者说,α 是 指拒绝了事实上正确的原假设的概率。A 多大才合适,来思考一下吧。 4、正交设计:SPSS 用于正交试验优化设计及其方差分析 一部分工科类的专业经常做一些工艺优化的毕业论文,正交试验设计时最简 单常用的方法。这篇博客从试验设计方法到 SPSS 正交设计操作都有做陈述, 是难得的一个案例,最好是收藏了。 5、SPSS 无空白列重复正交试验设计方差分析 SPSS 正交试验设计比较容易出现的一个问题,在实际应用当中,各种主观、 客观条件复杂多变,为了用较小的试验成本得到良好的试验结果,在试验设计中 就要求能够灵活控制影响因素和水平的个数,以及试验的次数,正交设计就如同 “独孤九剑”,招数虽只有一招,但却变化多端,有多重不同应用方式,无空白列 重复正交设计就是其中的一个变式。

6、因子分析:SPSS 因子分析经典案例分享 提起因子分析,在各类的毕业论文中使用频率就不用我在这里强调了,绝对 是 SPSS 论文中的杀手锏,怎么使怎么厉害,导师和评委大小通吃。 数据小兵 | www.datasoldier.net

2


数据小兵

www.datasoldier.net

关注数据分析解决方案

7、Spss K-means 聚类分析案例——某移动公司客户细分模型 SPSS 聚类分析,也是毕业论文中的常客。而顾客细分是其最常见的分析需 求,顾客细分总是和聚类分析挂在一起。这篇文章利用某移动公司的业务数据, 通过 k-means 聚类分析方法,简单的展示了客户细分模型的构建过程。 8、SPSS 聚类分析:用于筛选聚类变量的一套方法 用于参与聚类的变量决定了聚类的结果,无关变量有时会引起严重的错分, 因此,筛选有效的聚类变量至关重要。这篇文章讲述如何筛选聚类变量,图文结 合,够生动,大家可以参考,顺便收藏了。 欢迎大家微博找我,@数据小兵。

数据小兵 | www.datasoldier.net

3


数据小兵

www.datasoldier.net

关注数据分析解决方案

当前位置: 首页 >> 数据观点 >> 正文 时间:2013-2-3 13:16:51

在枯燥的日常监测中发现数据分析之美 发布:数据小兵 | 分类:数据观点 |

信息大爆炸时代注定我们难以静下心来,面对枯燥的数据监测工作能保持冷 静和洞察尤为艰难。当下社交网络横行,交流变得越来越简单简短,正如萧秋水 老师在微博中提到的一样:这个年代,还在坚持写博客而且写得用心、可读性强 的人越来越少,所以珍贵。以下,借路迪博客的一篇文章,分享数据分析的枯燥 与洞察数据之美。

1948 年辽沈战役开始之后,在东北野战军前线指挥所里面,每天深夜都要 进行例常的“每日军情汇报”:由值班参谋读出下属各个纵队、师、团用电台报告 的当日战况和缴获情况。 那几乎是重复着千篇一律的枯燥无味的数据:每支部队歼敌多少、俘虏多少; 缴获的火炮、车辆多少、枪支、物资多少… 司令员林彪的要求很细,俘虏要分清军官和士兵,缴获的枪支,要统计出机 枪、长枪、短枪;击毁和缴获尚能使用的汽车,也要分出大小和类别。 经过一天紧张的战斗指挥工作,人们都非常疲劳。整个作战室里面估计只有 定下这个规矩的司令员林彪本人、还有那个读电报的倒霉参谋在用心留意。 1948 年 10 月 14 日,东北野战军以迅雷不及掩耳之势,仅用了 30 小时就 攻克了对手原以为可以长期坚守的锦州并全歼了守敌十余万之后,不顾疲劳,挥 数据小兵 | www.datasoldier.net

1


数据小兵

www.datasoldier.net

关注数据分析解决方案

师北上与从沈阳出援的敌精锐廖耀湘基团二十余万在辽西相遇,一时间形成了混 战。战局瞬息万变,谁胜谁负实难预料。 在大战紧急中,林彪无论有多忙,仍然坚持每晚必作的“功课”。一天深夜, 值班参谋正在读着下面某师上报的其下属部队的战报。说他们下面的部队碰到了 一个不大的遭遇战,歼敌部分其余逃走。与其它之前所读的战报看上去并无明显 异样,值班参谋就这样读着读着,林彪突然叫了一声“停!”他的眼里闪出了光芒, 问:“刚才念的在胡家窝棚那个战斗的缴获,你们听到了吗?” 大家带着睡意的脸上出现了茫然,因为如此战斗每天都有几十起,不都是差 不多一模一样的枯燥数字吗?林彪扫视一周,见无人回答,便接连问了三句: “为什么那里缴获的短枪与长枪的比例比其它战斗略高”? “为什么那里缴获和击毁的小车与大车的比例比其它战斗略高”? “为什么在那里俘虏和击毙的军官与士兵的比例比其它战斗略高”? 人们还没有来得及思索,等不及的林彪司令员大步走向挂满军用地图的墙 壁,指着地图上的那个点说:“我猜想,不,我断定!敌人的指挥所就在这里!” 随后林彪口授命令,追击从胡家窝棚逃走的那部分敌人,并坚决把他们打掉。各 部队要采取分割包围的办法,把失去指挥中枢后会变得混乱的几十万敌军切成小 块,逐一歼灭。司令员的命令随着无线电波发向了参战的各部队…. 而此时的廖耀湘,正庆幸自己刚刚从偶然的一场遭遇战中安全脱身并与自己 的另外一支部队汇合。他来不及休息就急于指令各部队尽快调整部署,为下一阶 段作准备。可是好景不长,紧追而来的解放军迅速把他的新指挥部团团围住,拼 命攻击,漫山遍野的解放军战士中,不断有人喊着:“矮胖子,白净脸;金丝眼 镜湖南腔,不要放走廖耀湘!”。 把对方指挥官的细节特征琢磨到如此细微,并变成如此威力巨大的顺口溜, 穿着满身油渍伙夫服装的廖耀湘只好从俘虏群中站出来,无奈的说“我是廖耀 湘”,沮丧的举手投降。 廖耀湘对自己静心隐蔽的精悍野战司令部那么快就被发现、打掉,觉得实在 不可思议,认为那是一个偶然事件,输得不甘心。当他得知林彪是如何得出判断 之后,这位出身黄埔军校并留学法国著名的圣西尔军校,参加过滇缅战役,在那 里把日本鬼子揍得满地乱爬的新六军军长说,“我服了,败在他手下,不丢人。”

数据小兵 | www.datasoldier.net

2


数据小兵

www.datasoldier.net

关注数据分析解决方案

取得这场重要战役胜利的其中一个关键因素,居然出于获胜方的统帅夜半时分, 对一份普通遭遇战之后的战报的数据分析,来源于他“从红军带兵时起,身上有 个小本子,上面记载着每次战斗的缴获、歼敌数量”的优良军事素养。

读完这则故事,感触颇多。数据积累、数据监测工作是一项十分繁琐纷杂的 事情,考验的是相关工作人员的耐心与毅力,数据分析工作者经常说要“耐得住 寂寞”,这数据监测的工作还真就是一个需要耐得住寂寞的工作。如果我们从一 个简单的数据分析流程来解读这则故事,或许能从中发现数据分析的美。

【明确目的】 通过歼敌数量及缴获数据,发现异常、判断敌情。 【获取数据】 专人负责收集,由下而上,逐层快速流转,从各部队、各部门传向司令部。 【数据预处理】 多个方向(纵队、师等单位)的数据流向一个节点(司令部、林彪),因此 必须对来自不同方向的数据进行口径统一、格式整理、维度分类汇总等。 【数据分析】 林彪采用了品类对比分析,从缴获战利品的角度,通过短枪、小车、军官, 从时间维度(同比、环比),空间维度(各区域、各纵队),以及其他维度进行 对比,发现显著差异,确定敌情。 另一方面,林彪对士兵、军官、高级军官等群体的类别特征均了如指掌,也 体现出聚类分析的威力。 【分析结论】 对比分析后,得出结论,并由此制定策略。

数据小兵 | www.datasoldier.net

3


数据小兵

www.datasoldier.net

关注数据分析解决方案

从这个案例可以看出,林彪同志对“每日军情汇报”这个项目,从目的、获取、 分析到对策均非常的熟悉,精准的把握,而且能一贯的执行下去,难能可贵。那 些听得“烦恼、枯燥、昏昏欲睡的军官、将领以及工作人员”对这个流程不重视, 不熟悉,目的不明确,不能坚持,执行过程中有松懈。 对于类似的数据监测项目来说,长期坚持是必须要做到的一面,更重要的一 点是,把个人经验上升到维度和指标,再对指标设定危险值或预警值,若能如此 执行,即使没有“林彪”,同样能及时发现异常,提出警示。

如果你觉得根据预警值“发现异常,提出警示”,就等于获得成功,那就错了! 警报值发现异常,仅是发现异常信息,如何能把异常信息转变为决策信息才是最 最重要的,此时领导个人魅力、富有经验的头脑将显示出强大的能量,而这一项, 恰恰是大部分数据分析工作者无法做到的!因此,只见“数据疯析湿”忙到焦头烂 额,却难以看到能有多大的成效。 困惑么?解决方案是什么? 整理自:路迪博客,微博@丰沃华黄勇 最终编辑:@数据小兵,谢谢合作

数据小兵 | www.datasoldier.net

4

數據小兵博客SPSS文章  

數據小兵博客SPSS文章

數據小兵博客SPSS文章  

數據小兵博客SPSS文章

Advertisement