Alibaba作为一家拥有多业务的互联网公司,进行用户数据的大数据分析,已成为推动数据化运营的必然选择。大数据分析,第一步必然是取得需要的数据,今天我们来看看淘宝的用户行为数据采集的细节。任何一个小话题,细看都大有文章。
一、用户在购物网站上的任何一个行为都有分析的价值
1、基础信息。UV(独立ip地址的浏览量)、PV(页数被查看的数量)解决了流量来源统计、页面流量统计的问题,但随着互联网业务的发展,这些分析数据已经远远不能满足用户细分研究的需求。
2、扩展信息。用户在鼠标在某个链接上的停留时间、输入焦点的移动变化(代表对某个信息的关注度),这些行为并不触发浏览器加载新页面,无法通过常规的log日志分析出来,必须用新的办法。
二、WEB浏览器客户端的数据采集办法
1、客户端日志采集。因为数据不能完全依靠传统基于http服务器端的log文件进行进行数据分析,因为用户鼠标的移动并不会产生log文件的修改。新的处理办法:日志采集工作一般由一小段被植入页面html文档的JavaScript脚本来执行,脚本被客户端浏览器执行时,当用户的事件发生时,将触发JavaScript脚本执行。
2、客户端日志发送。采集脚本执行时,会向日志服务器发一个日志请求,将采