淘寶用戶行為分析案例(數據分析Day6實戰)
一、項目背景
本數據報告以淘寶app平臺為數據集,通過行業的指標對淘寶用戶行為進行分析,從而探索淘寶用戶的行為模式,具體指標包括:日PV和日UV分析,付費率分析,復購行為分析,漏斗流失分析和用戶價值RFM分析。
二、數據來源
三、提出問題
1.日PV有多少
2.日UV有多少
3.付費率情況如何
4.復購率是多少
5.漏斗流失情況如何
6.用戶價值情況
四、理解數據
本數據集共有104萬條左右數據,數據為淘寶APP2021年11月18日至2021年12月18日的用戶行為數據,共計6列字段,列字段分別是:
user_id:用戶身份,脫敏
item_id:商品ID,脫敏
behavior_type:用戶行為類型(包含點擊、收藏、加購物車、支付四種行為,分別用數字1、2、3、4表示)
user_geohash:地理位置

item_category:品類ID(商品所屬的品類)
time:用戶行為發生的時間
五、數據清洗
#coding:utf-8importpandasaspdimportnumpyaspyimportmatplotlib.pyplotaspltimportseabornassnsimportre#設置列數據全顯示pd.set_option('display.max_columns',None)data_user=pd.read_csv(r'.ianchi_mobile_recommend_train_user.csv')missingTotal=data_user.isnull().sum()missingExist=missingTotal[missingTotal>0]missingExist=missingExist.sort_values(ascending=False)print(missingExist)
print(missingTotal)
存在缺失值的是User_geohash,有717785條,不能刪除缺失值,因為地理信息在數據集收集過程中做過加密轉換,因此對數據集不做處理。
data_user.head()
#拆分數據集data_user['date']=data_user['time'].map(lambdas:re.compile('').split(s)[0])data_user['hour']=data_user['time'].map(lambdas:re.compile('').split(s)[1])data_user.head()
#查看data_user數據集數據類型:data_user.dtypes
#發現time列和date列應該轉化為日期類數據類型,hour列應該是字符串數據類型。#數據類型轉化data_user['date']=pd.to_datetime(data_user['date'])data_user['time']=pd.to_datetime(data_user['time'])data_user['hour']=data_user['hour'].astype('int64')data_user.dtypes
#異常值處理data_user=data_user.sort_values(by='time',ascending=True)data_user=data_user.reset_index(drop=True)data_user.describe()
image.png
通過觀察數據集的四分位數,總數,平均值,方差等,發現數據集并無異常值存在。
六、用戶行為分析
(1)pv和uv分析
PV(訪問量):即PageView,具體是指網站的是頁面瀏覽量或者點擊量,頁面被刷新一次就計算一次。
UV(獨立訪客):即UniqueVisitor,訪問您網站的一臺電腦客戶端為一個訪客。
1)日訪問量分析
#pv_daily記錄天天用戶操作次數,uv_daily記錄天天不同的上線用戶數量pv_daily=data_user.groupby('date')['user_id'].count().reset_index().rename(columns={'user_id':'pv'})uv_daily=data_user.groupby('date')['user_id'].apply(lambdax:x.drop_duplicates().count()).reset_index().rename(columns={'user_id':'uv'})fig,axes=plt.subplots(2,1,sharex=True)pv_daily.plot(x='date',y='pv',ax=axes[0])uv_daily.plot(x='date',y='uv',ax=axes[1])axes[0].set_title('pv_daily')
結果顯示如上圖所示,在雙十二期間,pv和uv訪問量達到峰值,并且可以發現,uv和pv兩個訪問量數值差距比較大,同時,因為數據集總人數大約是10000人左右,因此,通過nv值可以分析出雙十二期間淘寶用戶的日活躍大概是45%浮動。
#小時訪問量分析#pv_hour記錄每小時用戶操作次數,uv_hour記錄每小時不同的上線用戶數量pv_hour=data_user.groupby('hour')['user_id'].count().reset_index().rename(columns={'user_id':'pv'})uv_hour=data_user.groupby('hour')['user_id'].apply(lambdax:x.drop_duplicates().count()).reset_index().rename(columns={'user_id':'uv'})fig,axes=plt.subplots(2,1,sharex=True)pv_hour.plot(x='hour',y='pv',ax=axes[0])uv_hour.plot(x='hour',y='uv',ax=axes[1])axes[0].set_title('pv_hour')axes[1].set_title('uv_hour')
上一篇:淘寶PC流量平臺的作用
下一篇:新手提升淘寶流量的九大秘籍
文章地址:http://www.brucezhang.com/article/online/8384.html