1. 數據收集
京東商城信息采集 數據收集的來源:
京東擁有我認為幾乎是互聯網上最完整、最精準、最高、最長完整鏈條的數據。
第一方面,京東商城一年有大幾千億的銷售額,十幾萬的商家,10億以上的商品每天沉淀在平臺上,有大量的數據可以為整體的后續營銷和人工智能建設服務。
第二方面,我不知道大家有沒有用過京東白條?實際上像京東白條,包括理財產品,對用戶來講是有非常高價值的數據。
第三方面,是物流。今年4月份,京東宣布整個物流子集團成立,意味著京東物流從一個供給自身商城業務,擴展到社會化物流。我們現在也開始給大量的品牌方服務,可能這個商家在天貓開店,但它是用京東的倉庫,用京東的整個物流體系。各個地區行業的數據獲取可以更高,當然數據是永遠沒有止境的。
京東產品總監朱文偉:利用AI加速構建營銷新模式
第四方面,東哥(劉強東在開年大會上)也提了無界零售。我們現有八家京X計劃,包括騰訊,今日頭條,都是行業里最大的媒體和流量端。通過整個的數據清洗,讓我們的數據更完整。
數據收集的原則
互聯網真正地采集了大量的數據,這是人工智能的第一戰場。在數據整個收集過程里有幾個點,是我想強調的:
第一個,數據并非越多越好
如果有些數據是無效的,也不用刻意地生產很多畫像。
第二個,沒有應用場景的畫像沒有任何價值
舉個例子,比如你喜歡吃核桃,你又打王者榮耀,你覺得王者榮耀知道你喜歡吃核桃這件事情有任何價值嗎?他可能給你出個核桃的裝備嗎?聽上去好像沒有什么商業意義。
第三個,大部分畫像都是一種概率
大部分數據,包括用戶畫像,你可以認為它是一種概率。比如京東商品信息采集,在我們家大部分電商的消費都是我來完成的,也會幫我老婆買一些女性用品,由于我其他行為也不多,可能我就會被定義為一個女性用戶。但實際上我在其他方面的行為并不是一個女性用戶,所以它會存在偏差。
京東商品采集器 第四個,不要過度關心用戶避免用戶焦慮
這個在互聯網早期比較多,總讓用戶填一些個人信息問卷;其實很少有人會認真地去填,所以盡量不要去打攪用戶。
<文章地址:http://www.brucezhang.com/article/online/jdcpzjzwwlyAIjsgjyxxms.html