5.2 分组对比分析
本章学习目标理解为什么要分组单独看一个数字是没有意义的掌握分组的思维方式对比才能产生洞察了解groupby的核心概念知道能做什么不记语法学会发现组间差异并将其翻译成业务洞察核心能力从“整体平均”到“细分差异”找到真正的业务问题一、为什么要分组1.1 核心认知单独看一个数字是没有意义的“一个数字本身什么也说明不了对比才能产生洞察。”一个经典例子我问你“某电商平台用户平均消费500元这个数字高还是低”你无法回答因为缺少对比的参照对比对象对比结果洞察去年平均消费300元增长了67%✅ 经营状况良好行业平均消费800元低于行业水平38%❌ 存在严重问题一线城市用户平均1000元只有一半⚠️ 用户质量或定价策略有问题同样的数字不同的对比对象得出完全相反的结论。1.2 分组的本质创造有意义的对比分组对比分析就是将数据按照某个维度分成不同的组然后比较各组之间的差异。分组维度对比的问题能发现什么时间今年 vs 去年“今年的业绩比去年好还是差”增长趋势、季节性地区北京 vs 上海 vs 广州“哪个城市表现最好”区域差异、资源分配用户类型新用户 vs 老用户“新用户的留存率更低吗”用户生命周期问题产品类别A类 vs B类“哪个品类是增长引擎”产品策略方向渠道抖音 vs 微信 vs 线下“哪个渠道ROI最高”营销预算分配1.3 一个生活化的例子医院手术成功率某医院宣称“我们的手术成功率高达95%”这个数字听起来很厉害但如果你分组看手术类型手术台数成功数成功率眼科手术80079699.5%心脏手术1008080%脑外科手术201050%全部门诊小手术1,00090090%发现医院用“平均95%”掩盖了不同手术类型的巨大差异高难度手术的成功率其实很低分组揭示了真相核心洞察不分组的平均值是一张“遮羞布”它会掩盖最重要的差异。二、分组对比分析的思维方式2.1 核心思维分而析之对比见真分析框架整体数据 ↓ 按某个维度拆分 ↓ 多个子群体 ↓ 对比各群体的关键指标 ↓ 发现差异 → 追溯原因 → 业务行动2.2 常见的分组维度维度类型具体维度典型问题时间维度年、月、周、日、小时哪个月份业绩最好周末 vs 工作日用户属性性别、年龄、城市、会员等级男性 vs 女性的消费差异行为属性新老用户、活跃度、渠道来源新用户的转化率为什么低产品属性品类、品牌、价格区间哪个品类的复购率最高地理属性国家、省份、城市一线城市 vs 下沉市场的差异2.3 分组分析的三种基本形式形式一单维度分组按一个维度拆分对比不同组的指标。例子不同城市的用户平均消费城市平均消费元北京850上海820广州650深圳780成都450→ 洞察一线城市 新一线城市市场资源应向高消费城市倾斜。形式二多维度交叉分组按两个或多个维度组合拆分发现交互效应。例子不同城市 × 不同用户类型的平均消费城市新用户老用户老用户 vs 新用户北京3001,200900成都250600350→ 洞察拉新后北京的老用户价值是成都的2倍北京更值得投入用户留存资源。形式三时间趋势对比分组后看各组随时间的变化趋势。例子不同品类销售额的月度趋势→ 洞察A品类在9月开始爆发可能是开学季B品类全年平稳。三、groupby 核心概念知道能做什么就够了3.1 什么是 groupbygroupby是“分组聚合”的操作——先按某个字段分组然后对每组计算统计量如平均值、总和、计数。三步思维第1步拆分Split → 按某个维度将数据分成若干组 第2步应用Apply → 对每组应用一个函数计算均值、求和等 第3步合并Combine→ 将每组的计算结果合并成一个新表格3.2 你能用 groupby 做什么你想做什么说明例子分组计数统计每组的数量每个城市的用户数分组求和计算每组的总额每个品类的销售额分组均值计算每组的平均值不同渠道的转化率分组最值找出每组的最大/最小值每个地区的最高销售额分组多指标同时计算多个统计量每组的平均值、中位数、标准差多级分组按多个维度分组按城市月份分组如何向AI描述“按城市分组统计每个城市的用户数量和平均消费金额”“按月份和品类分组计算每月的销售额”3.3 分组后可以做什么分析分析类型方法发现什么排序按指标值排序谁是最好/最差的占比计算各组占总体的比例头部集中度如何对比差异组间差异大小差异是否显著趋势对比各组随时间的变化增长趋势是否一致分层分析按指标值分层是否存在“二八效应”四、核心能力发现组间差异4.1 什么是组间差异组间差异是指不同组之间在某个指标上的差别。发现组间差异是分组分析的核心产出——差异就是问题问题就是机会。4.2 差异的类型与含义差异类型含义业务意义行动方向A组显著高于B组存在“赢家”和“输家”需要分析赢家做对了什么复制成功经验两组差异很小因素影响不大这个维度可能不重要关注其他因素差异随时间扩大两极分化正在加剧马太效应需干预帮扶弱势群体差异随时间缩小差距在收敛追赶效应巩固优势4.3 实战案例从数据到洞察案例一电商平台用户消费分析第一步看整体整体人均消费1,200元第二步按城市分组城市等级人均消费元一线城市2,500新一线1,800二线城市900三线及以下400第三步发现差异一线城市是三四线城市的6倍多第四步追问原因是一线城市用户更有钱→ 收入差异是一线城市商品价格更高→ 定价策略是三四线城市商品供给不足→ 供应链问题第五步业务行动如果原因是供给不足 → 拓展三四线城市的商品品类如果原因是价格敏感 → 针对三四线城市推出性价比产品线案例二用户留存分析第一步看整体整体次日留存率40%第二步按渠道分组渠道次日留存率抖音广告52%微信朋友圈45%应用商店搜索38%短信推送12%第三步发现差异抖音广告留存率52%短信推送仅12%第四步追问原因抖音用户主动刷到感兴趣内容 → 主动下载 → 高留存短信推送被动打扰 → 随手下载领优惠 → 低留存第五步业务行动加大抖音广告投放预算优化短信推送策略减少频率、增加个性化内容五、高级分组分析技巧5.1 分层分析Segmentation Analysis概念按指标值将用户分成若干层分析各层的特征。例子用户消费分层消费分层定义人数占比消费占比高价值用户年消费 10,0005%40%中价值用户1,000 - 10,00025%35%低价值用户0 - 1,00070%25%洞察5%的用户贡献了40%的消费 → 典型的“二八定律”业务行动高价值用户专属客服、VIP权益、防止流失中价值用户激励升级为高价值低价值用户提升活跃度或接受其为长尾5.2 同期群分析Cohort Analysis概念按“首次行为时间”分组追踪各组在后续时间周期内的表现。例子按注册月份分组的留存率追踪注册月份用户数第1月留存第2月留存第3月留存第6月留存1月10,00040%30%25%18%2月8,00042%32%26%20%3月产品改版12,00055%48%42%38%洞察3月产品改版后注册的用户留存率显著提升 → 改版有效5.3 漏斗分组分析概念在转化漏斗的每个环节按用户属性分组对比各组转化率。例子注册流程转化率按设备类型分组环节手机整体iOSAndroidPC访问落地页100%100%100%100%点击注册按钮60%65%58%55%填写信息45%52%42%38%完成注册38%46%35%30%洞察iOS在各环节都领先可能因为iOS用户体验更好PC端转化率最低可能因为移动端优化更好业务行动优化Android端和PC端的注册流程将iOS的成功经验复制到其他平台六、分组对比分析的完整案例案例二手车价格影响因素分析业务背景二手车平台希望了解哪些因素对价格影响最大以便优化定价策略。第一步整体价格分布整体平均价格5,923元整体中位数价格3,500元发现均值 中位数存在高价车拉高平均值第二步按品牌分组品牌编码车辆数平均价格元中位数价格元品牌130,0008,5007,200品牌225,0006,2005,800品牌320,0004,5003,900品牌415,0003,2002,800…………洞察1品牌之间价格差异显著品牌是最重要的价格因素之一。第三步按变速箱类型分组变速箱车辆数平均价格元自动挡80,0006,800手动挡64,0004,200洞察2自动挡比手动挡贵约60%说明自动挡更受欢迎。第四步按车龄分组车龄年平均价格元相比1年内新车的价格衰减1年内10,000基准1-3年7,500-25%3-5年5,000-50%5-8年3,000-70%8年以上1,500-85%洞察3车龄对价格的影响非常大3年车龄价格减半8年以上的车贬值85%。第五步多维度交叉分析变速箱 × 车龄车龄自动挡平均价手动挡平均价差价自动-手动1年内11,0008,0003,0001-3年8,0005,5002,5003-5年5,5003,8001,7005-8年3,5002,2001,3008年以上1,8001,000800洞察4自动挡的溢价在新车上更明显3,000元溢价随车龄增长而收窄。汇总洞察与业务建议洞察业务建议品牌差异大定价时品牌权重应最高自动挡普遍贵60%收车时优先考虑自动挡利润更高3年车龄价格减半3年左右的车性价比最高适合主推自动挡溢价随时间递减老车不必过度强调变速箱类型七、如何向AI描述分组分析需求你的需求你应该这样告诉AI单维度分组“按品牌分组计算每个品牌的平均价格和车辆数量”多维度分组“按品牌和变速箱类型分组计算各组的平均价格”分组排序“按城市分组计算用户数量然后按数量从高到低排序”分组占比“计算每个品类的销售额占比”分组中位数“按车龄分组计算每组的价格中位数”趋势对比“按月份和品类分组计算每月销售额并画出趋势图”多指标统计“按用户等级分组同时计算平均消费、中位数消费、消费总数”寻找差异“帮我分析不同城市之间的消费差异找出差异最大的城市”八、本章总结核心知识点回顾为什么要分组单独看一个数字没有意义对比才能产生洞察分组的本质创造有意义的对比发现被平均值掩盖的真相groupby概念拆分→应用→合并三步思维核心能力发现组间差异 → 追问原因 → 得出业务行动分组分析的核心心法“不分组的平均值是一张遮羞布。真正的洞察藏在分组对比的差异里。发现差异追问原因得出行动——这是数据分析最核心的价值创造方式。”分析流程速记整体数据 → 拆分维度 → 计算指标 → 发现差异 → 追问原因 → 业务行动思考题某App整体次日留存率是35%。不看分组数据你能判断这个数字是好是坏吗为什么按渠道分组后发现渠道A留存率50%渠道B留存率20%。你会建议砍掉渠道B吗还需要考虑什么因素某电商平台整体客单价100元。按用户等级分组后发现普通会员80元黄金会员150元钻石会员300元。这个发现有什么价值你发现一线城市的用户消费明显高于二三线城市。你会直接建议“把预算都投给一线城市”吗还需要分析什么品牌A的二手车价格是品牌B的两倍。仅凭这个发现你能判断品牌A的车更好卖吗还需要分析什么下一节预告5.3 相关性分析 —— 变量之间是“同向变化”还是“反向变化”如何量化变量之间的关系强度“相关”等于“因果”吗