K-means聚类实战：用Python手把手教你做客户分群（附完整代码）

张开发

• 2026/4/18 19:38:11 • 15 分钟阅读

分享文章

K-means聚类实战用Python手把手教你做客户分群附完整代码在电商和金融行业精准识别客户群体是提升营销效率的关键。传统的人工分类方法不仅耗时耗力还难以捕捉复杂的客户行为模式。而K-means算法作为一种经典的无监督学习技术能够自动发现数据中的自然分组为商业决策提供数据支持。本文将带你从零开始实现一个完整的客户分群项目。不同于简单的算法介绍我们会重点解决实际业务中的三个核心问题如何准备客户数据如何确定最佳聚类数量以及如何解读聚类结果通过Python代码示例和可视化分析你将掌握可立即应用于工作的实战技能。1. 数据准备与探索性分析客户分群的第一步是获取和理解数据。典型的数据来源包括交易记录购买频率、金额、品类偏好用户行为页面浏览、点击流、停留时长人口统计信息年龄、性别、地域假设我们已经从电商平台获取了以下字段的客户数据import pandas as pd import numpy as np # 模拟客户数据 np.random.seed(42) data { age: np.random.normal(35, 10, 1000).astype(int), annual_income: np.random.lognormal(10.5, 0.4, 1000), spending_score: np.random.randint(1, 100, 1000), avg_session_duration: np.random.exponential(300, 1000), purchase_frequency: np.random.poisson(3, 1000) } df pd.DataFrame(data)数据预处理的关键步骤缺失值处理检查并填充或删除缺失值print(df.isnull().sum()) # 检查缺失值异常值检测使用IQR方法识别和处理异常值Q1 df.quantile(0.25) Q3 df.quantile(0.75) IQR Q3 - Q1 df df[~((df (Q1 - 1.5 * IQR)) | (df (Q3 1.5 * IQR))).any(axis1)]特征缩放标准化数值特征from sklearn.preprocessing import StandardScaler scaler StandardScaler() scaled_features scaler.fit_transform(df)提示对于分类特征可以考虑使用独热编码或目标编码但K-means主要适用于数值型数据。2. 确定最佳聚类数量K-means需要预先指定聚类数量K选择不当会导致结果难以解释。以下是三种常用方法2.1 肘部法则Elbow Method通过观察不同K值对应的SSE误差平方和变化from sklearn.cluster import KMeans import matplotlib.pyplot as plt sse [] for k in range(1, 11): kmeans KMeans(n_clustersk, random_state42) kmeans.fit(scaled_features) sse.append(kmeans.inertia_) plt.plot(range(1, 11), sse, markero) plt.xlabel(Number of clusters) plt.ylabel(SSE) plt.title(Elbow Method) plt.show()2.2 轮廓系数分析衡量聚类紧密度和分离度的综合指标from sklearn.metrics import silhouette_score silhouette_scores [] for k in range(2, 11): kmeans KMeans(n_clustersk, random_state42) labels kmeans.fit_predict(scaled_features) score silhouette_score(scaled_features, labels) silhouette_scores.append(score) plt.plot(range(2, 11), silhouette_scores, markero) plt.xlabel(Number of clusters) plt.ylabel(Silhouette Score) plt.title(Silhouette Analysis) plt.show()2.3 间隙统计量Gap Statistic比较实际数据与参考分布的聚类质量差异from gap_statistic import OptimalK # 需要安装gap-stat包 optimalK OptimalK() n_clusters optimalK(scaled_features, cluster_arrayrange(1, 11)) print(fOptimal number of clusters: {n_clusters})三种方法各有优劣实际项目中建议结合业务理解综合判断。对于我们的模拟数据K5可能是一个合理的选择。3. 模型训练与调优确定了最佳K值后可以训练最终的K-means模型final_kmeans KMeans(n_clusters5, random_state42) clusters final_kmeans.fit_predict(scaled_features) df[cluster] clustersK-means对初始质心敏感可以通过以下方法提升稳定性增加n_init参数多次随机初始化选择最佳结果kmeans KMeans(n_clusters5, n_init20, random_state42)使用k-means初始化更智能的质心选择方法kmeans KMeans(n_clusters5, initk-means, random_state42)设置max_iter参数控制最大迭代次数kmeans KMeans(n_clusters5, max_iter300, random_state42)模型训练完成后检查各簇的统计特征cluster_stats df.groupby(cluster).agg({ age: mean, annual_income: mean, spending_score: mean, purchase_frequency: mean }).round(2) print(cluster_stats)4. 结果可视化与业务解读可视化是理解聚类结果的关键。以下是几种有效的展示方式4.1 平行坐标图展示各特征在不同簇中的分布from pandas.plotting import parallel_coordinates plt.figure(figsize(12, 6)) parallel_coordinates(df, cluster, colormapviridis) plt.title(Parallel Coordinates Plot) plt.show()4.2 雷达图直观比较各簇的特征均值import plotly.express as px fig px.line_polar(cluster_stats.reset_index(), rannual_income, thetacluster_stats.columns, colorcluster, line_closeTrue, templateplotly_dark) fig.show()4.3 二维投影使用PCA降维后可视化from sklearn.decomposition import PCA pca PCA(n_components2) principal_components pca.fit_transform(scaled_features) df[pca1] principal_components[:, 0] df[pca2] principal_components[:, 1] plt.scatter(df[pca1], df[pca2], cdf[cluster], cmapviridis) plt.title(2D PCA Projection) plt.show()基于这些分析我们可以为每个客户群体制定针对性的营销策略客户群体特征描述营销建议群体1高收入、高消费推送高端商品和VIP服务群体2中等收入、低频消费发送优惠券刺激消费群体3年轻用户、高活跃度推荐社交分享活动群体4低收入、低消费提供基础商品和折扣群体5高频率、中等消费会员积分和捆绑销售5. 进阶技巧与常见问题5.1 处理高维数据当特征维度较高时可以考虑使用PCA等降维技术采用特征选择方法尝试更适合高维数据的算法如谱聚类# 使用PCA降维后再聚类 pca PCA(n_components0.95) # 保留95%方差 reduced_data pca.fit_transform(scaled_features) kmeans_pca KMeans(n_clusters5, random_state42).fit(reduced_data)5.2 类别型特征处理对于包含类别型特征的数据使用独热编码采用K-prototypes算法混合型数据聚类计算类别间的距离度量from kmodes.kprototypes import KPrototypes # 假设df包含数值型和类别型特征 kproto KPrototypes(n_clusters5, initCao) clusters kproto.fit_predict(df, categorical[0, 1]) # 指定类别型列索引5.3 评估聚类质量除了轮廓系数还可以使用Calinski-Harabasz指数Davies-Bouldin指数与业务指标的相关性分析from sklearn.metrics import calinski_harabasz_score, davies_bouldin_score ch_score calinski_harabasz_score(scaled_features, clusters) db_score davies_bouldin_score(scaled_features, clusters) print(fCalinski-Harabasz Score: {ch_score:.2f}) print(fDavies-Bouldin Score: {db_score:.2f})5.4 实时聚类更新对于流式数据可以考虑Mini-Batch K-means增量式聚类算法定期重新训练模型from sklearn.cluster import MiniBatchKMeans mbk MiniBatchKMeans(n_clusters5, random_state42) batch_size 100 for i in range(0, len(scaled_features), batch_size): mbk.partial_fit(scaled_features[i:ibatch_size])在实际电商项目中我们发现将聚类结果与RFM模型最近购买时间、购买频率、消费金额结合能够更精准地识别高价值客户。例如一个高收入但最近没有购买行为的客户群体可能需要特别的召回策略。

K-means聚类实战：用Python手把手教你做客户分群（附完整代码）

最新文章

崩坏星穹铁道自动化神器：三月七小助手解放你的游戏时间

从kNN算法到智能选车：一个归一化与特征工程的实战解析

HG-ha/MTools惊艳效果：AI批量生成PPT配图+自动排版+演讲备注生成实测

别再死记硬背口诀了！用STM32和串口助手，手把手教你调出完美的PID温度曲线

开发环境管理系统详细设计文档

XUnity.AutoTranslator终极指南：5分钟实现Unity游戏AI实时翻译

推荐文章

VINS-fusion实战：从Euroc到KITTI，手把手教你配置与避坑（附EVO评估全流程）

为了过等保，我们给200+服务器做了OpenSSH 10.0自动化升级，这是完整复盘

【信息安全概论实验报告1】隐写技术

明明知道该做什么，却总提不起劲？蕙兰瑜伽告诉你：不是你懒，是你忘了自己是谁

【2026奇点大会Prompt工程权威指南】：全球仅37位主讲人亲授的5大高阶提示范式与实战避坑清单

工业大模型≠智能工厂！SITS2026曝光的12个AI原生落地陷阱，第9个正在吞噬你的技改预算

相关文章

深入解析ZeroMQ inproc：线程间通信的高效实现与性能优势

BewlyBewly终极指南：打造高效个性化的B站浏览体验

IDM激活脚本架构设计：基于注册表锁定机制的99%成功率激活方案

Sulpho-Methyltetrazine-NHS ester，磺化甲基四嗪-琥珀酰亚胺酯的结构特点与功能

3步精通Zotero OCR：从安装到高效文本识别

OpCore-Simplify：驯服硬件兼容性的自动化引擎

分享文章

更多文章

YOLO 系列：引入 DCNv3 变形卷积魔改 YOLOv10 主干，提升非刚性与不规则目标检测召回率

虚幻引擎Pak文件解析实战指南：3步快速掌握资源包内部结构

C语言课程设计报告怎么写？模板来了

如何安装OpenClaw？2026年4月阿里云大模型Coding Plan配置教程

Rockchip RK3588 Android SDK编译实战：从环境配置到镜像烧写

如何实现全自动跨平台直播录制？LiveAutoRecord终极解决方案

软件服务管理化的客户价值创造

MPV播放器完整配置指南：打造你的专属高清观影体验

网络安全技术思考

Elasticsearch 核心：Mapping 常见数据类型全解析（图解+选型+实战）

MusePublic Art Studio生成多样性控制：潜在空间探索技术

Excel实战：如何用AVERAGE和ABS函数快速计算平均值偏差（附模板下载）

K-means聚类实战：用Python手把手教你做客户分群（附完整代码）

最新文章

崩坏星穹铁道自动化神器：三月七小助手解放你的游戏时间

从kNN算法到智能选车：一个归一化与特征工程的实战解析

HG-ha/MTools惊艳效果：AI批量生成PPT配图+自动排版+演讲备注生成实测

别再死记硬背口诀了！用STM32和串口助手，手把手教你调出完美的PID温度曲线

开发环境管理系统详细设计文档

XUnity.AutoTranslator终极指南：5分钟实现Unity游戏AI实时翻译

推荐文章

VINS-fusion实战：从Euroc到KITTI，手把手教你配置与避坑（附EVO评估全流程）

为了过等保，我们给200+服务器做了OpenSSH 10.0自动化升级，这是完整复盘

【信息安全概论 实验报告1】隐写技术

明明知道该做什么，却总提不起劲？蕙兰瑜伽告诉你：不是你懒，是你忘了自己是谁

【2026奇点大会Prompt工程权威指南】：全球仅37位主讲人亲授的5大高阶提示范式与实战避坑清单

工业大模型≠智能工厂！SITS2026曝光的12个AI原生落地陷阱，第9个正在吞噬你的技改预算

相关文章

深入解析ZeroMQ inproc：线程间通信的高效实现与性能优势

BewlyBewly终极指南：打造高效个性化的B站浏览体验

IDM激活脚本架构设计：基于注册表锁定机制的99%成功率激活方案

Sulpho-Methyltetrazine-NHS ester，磺化甲基四嗪-琥珀酰亚胺酯的结构特点与功能

3步精通Zotero OCR：从安装到高效文本识别

OpCore-Simplify：驯服硬件兼容性的自动化引擎

分享文章

更多文章

【信息安全概论实验报告1】隐写技术