文件名称:
商品用户行为数据处理中的数学问题(1)
开发工具:
文件大小: 760kb
下载次数: 0
上传时间: 2019-03-15
详细说明:随着网络日益普及,选择使用网络购物的人数也大大增加,个性化推荐模型能极大地提升商家的收益。本文通过对问题和数据的分析和合理假设,建立回归方程模型以及协同过滤推荐算法,给出符合实际的个性化推荐模型,并给出销售策略。问题三:题目要求建立对于不同地点的推荐模型并给出预测结果。本文选择建立基
于协冋同过滤的地点综合推荐模型。建立川户-商品评分矩阵,再综合不同地区不同种类商
品的购买量加权求和,取出评分最大的几个商品作为12月18号的预测购买结果并进行
精度检验。
问题四:题∏要求建立对于不同时间以及地点的推荐模型并给出预测结果。本文将
问题二和问题三所得结果进行加权处理,取出评分最大的儿个商品作为12月18号的预
测购买结果并进行精度检验。
问题五:对每个商品所在类别和用户行为进行统计,结合根据前四问模型及分析给
出最优销售策略
模型假设
1、不考虑地理位置以及时区对模型中时间的影响。
2、通过字段脱敏的商品种类编号之间存在关系。
3、随机抽取的数据可以代表全部数据。
四、符号说明
符号
符号说明
操作次数
x
自变量时问或商品种类
K
商品A的购买比例
邻居用户
pa
用户a对商品j的评分
用户a对评分过的商品集合的平均得
分
目标用户的预测评分
qA
有品A对用户j的评分
X
商品A在用户中的平均得分
a阝Y
权重系数
五、模型的建立与求解
1问题一
通过对资料的查阅以及利用 Excel软件进行的数据处理,本文初步确定吋间以及商
品类型对商品行为影响性最大。本文选择利用用户操作次数来描述商品行为,下面将求
解得出商品行为与影响因素关系具体的数学模型。
5.1.1时间对商品行为的影响
首先利用 Excel钦件对数据进行处理,做岀2014年1l月18至12月18每日的操
作次数以及商吊子集的操作次数柱形图,如下
1200000
L00000Q
800000
60oo00
400D0o
20000Q
88下下界
m寸
图111月至12月每日操作次数统计图
作次数
400000
350C0
300c00
250000
2000
150000
N可只际
三宁宁
寸寸对寸可
寸寸寸寸守
对 RaRE
时间
图2商品子集P操作次数统计图
由图可以看到出,除了12月12号操作次数突增之外,其他时间操作次数总体稳定
为」进一步研究时间对商品行为的影响冋时为」预测数捃能够更加准确,本模型选用12
月17号每小时操作数据进行深入研究。下图为12月17号每小时操作次数柱形图
5000
33000
20000
10000
好寸好寸好寸好寸好好寸好寸好好寸好寸好守寸守寸好寸寸守寸好寸寸好寸好寸≮好好好寸守守
RRRR88R8R38888888RR8R8R88R8RR月R8888RR88888888
图312月17操作次数统计图
为了更加清晰的分析4种操作与时问的关系,我们再选取3号购买操作单独作图:
400
aa8合833绍sR吕古8器§器Bm实R
只只只只只只月只只只月月只只只限习只习只限只民只只
图412月17购买操作次数统计图
通过比较可以看出一天内4种操作变化趋势几乎一致而且呈曲线变化,由此可以建
立一元多次回归方程,模型如下:
y=ao+a1x+a2x2+.+anxn(n=1,2,3..
(1)
利用 MATLAB软件进行曲线拟合得出时间对商品行为影响的一元六次回归方程模
型
y=-0.0037x6+0.2426x5-57269X4+57394x3-19682x2-64436x+10352(2)
其中相关系数R2的值为0.9068,函数拟合效果好,模型精度较高可行性强
5.1.2商品种类对商品行为的影响
依旧选取2014年12月17号操作次数数据进行分析,由于数据量庞人,本模型随
机选取了10种商品类型如下:
表1:不同种类商品操作次数
商品分类操作次数
10
119
150
438
306410154
6417
424
8828
94
12221
556
13672
16
建立一元多次回归方程模型如下
y=ao +a,x+a,x2+..+anxn (n= 1, 2, 3
(3)
利用 MATLAB软件进行曲线拟合得出时间对尚品行为影响的一元六次回归方程模
型
y=4e-20x6-2c-15x5+3e-11x+-2e07x3+0.0006x2-0.3764x+27423(4)
其中相关系数R2的值为0.985,函数拟合效果好,模型精度铰髙可行性强
2问题二
5.2.1协同过滤模型的建立
从题目所得到的数据我们无法知道商品具体为哪些种类,也不知道购买者是哪些人
群,只能知道用户购买了哪些商品,这个非常符合协同过滤模型的方式:从数据库里获
取他之前喜欢的东西,然后从剩下的物品中找到和他历史兴趣近似的物品推荐给他,核
心是要计算两个物品的相似度。所以我们分别计算用户与用户的相似度以及商品与商品
之间的相似度取最大的值推荐给学要买的同一类相似用户,也就是建立协同过滤模型。
首先考虑用户推荐模型,假设用户a喜欢商品A和商品C,用户b喜欢商品B,用
户c喜欢商品A,商品C和D;可以看出用户a和用户c的偏好类似,用户c还喜欢商
品D,以此推断用户a可能也喜欢商品D,囚此将商品D推荐给用户as
通过查阅资料我们给出用户a,b的相关性公式:
∑i∈lab(pa-na)(b-b)
sinla, b)
(5)
ela(n-)2∈ha(b-)2
将和用户a相关性大于0.9的用户作为它的最近邻居集合U。综合邻居用户对商品
j的评价并预测用户a对商品的评分。则预测评分的公式如下:
c∈U
(Pci -pc)sin(a, c)
∈I
sin(a, C)
再考虑商品推荐模型,假设用户c喜欢商品A和C,用户b喜欢商品A,商品B和
商品C,用户c喜欢商品A,从这些用户的喜好可以分析出商品A和C比较类似,喜
欢A的人都喜欢C,因此断用户c很有可能也喜欢商品C,所以将商品C推荐给川户
通过查阅资料给出那么商品A,B的相关性公式
∑i∈UAB(qA-x)(qBr-xB)
sin (a, B)
E】∈U1a(9-x)3yXE1(91-x)
将和商品A相关性大于0.9的作为它的最近邻集合U。对目标用户未评分的商品根
据评分公式进行预测评分。公式如下
C∈八1C
Pc)sin(A,c)
Ps(A
PA
∑ sin(A,c)
5.2.2混合综合评价与评估
选取12月17号数据进行解题,利用 Excel软件处理数据得到·天之中不同吋刻用
户购买商品数量比,将之将与用户相关性得分和商品的相关性得分进行加权求和,通过
分别对α和β进行取值,发现α=0.4,β=0.4时效果最好,综合评分如公式(9),将得分
最高的商品推荐给用户。
(a,j)
+Bp
S(A, j)
+(1-6-0)T
最后釆用本文精确度、召回率和F1值作为评估指标。具体计算公式如下:
In(Prediction Set, ReferenceSet
Precision
PRediction Setl
Recall
In(PredictionSet, ReferenceSet
(11)
Refere nceSet
2× Precision recall
F1=
(12)
Precision+ Recall
5.23模型的求解
由于题目数据庞大,本模型只挑选购买比例大于0.05的数据进行进一步分析。通过
对数据的分析我们得到了不同时间段商品科类被购买的比例如下
表2:不同种类商品购买比例
时间种类购买比例时间种类购买比例
3783
0.10
5894016
6045
0.14
10472
957
0.24
11343006
9516
0.33
13041006
113070.33
292010
9720
0.33
951605
894
1863
0.08
1863
0.33
15
6513
006
5242
0.33
9516008
n3007
12662
0.13
6255
0.07
5319
0.13
6648
0.07
45830.13
11537007
11379
0.50
133380.10
5
3673
0.13
292009
6
6513
0.75
8864
0.07
3064
0.25
9516009
9516
0.25
0.13
8270
0.13
5271
0.13
9517
0.13
6054009
7580013
1674006
5204
0.13
37830.06
42
0.13
5399009
14079013
13926006
4250
0.14
2177
0.08
5894
0.07
6977
0.14
010
0.07
1537
0.12
67600
128550.12
215271009
9516
0.12
9516006
12626016
10392006
0.11
0.06
11
5571
0.09
2953
0.09
6717
235894007
124269009
6513007
由于题目数据过于庞人,本文随机抽取10个用户的操作数据利用 MATLAB对用户
推荐模型以及商品推荐模型进行求解,得到不同推荐商品评分。
表3:用户推荐商品评分
useriditem_id评分 er_id item _id评分 user_litem.id评分 user id item-id评分
81886633
1798610939
11115
164512040710201002066804600691
6167680319
77025031
0.198
20016043
175477880
288969493
0388
1CCC76491
81105103912421310837103972578707030823
59793377
EEc19564
039
8150381803/6
NCC/1355
1C940C2
217092390246
209087645
将两表数据代入公式(9)进行计算,求出最高评分,最终得到一天内各个时间段推
荐商品如下:
衣4:基于不同吋间段的商品推荐
LIser id间
tem id
user id间
user d时间
d剩间
usrd间 item id
0281886638
0220586511
C187577314
12818668
1
275221686
17988661
1187577314
1128869499
2187577314
3
281886638
275221686
3179861
187577314
32864
∠280186
4107577314
52819968
527521686
1798661
5187577141
5289699
62818868
6187577314
6288969499
281886638
275221686
717988661
739
187577314
288969499
828
27522168
618757714
9281868
927521860
17988661
s1875714
9288649
102819638
1027522686
798861
10187577314
128969
11281868
1111549
1221868
10001082
122610037312181010
11187573141074
91
112896949
1218//31
1228999
13281
1327521686
17988661
13187577314
13288949
14
142752186
14187577314
1428869
152861868
1527522180
15179861
1518757714
15395913318
152819868
1527521696
17989661
15187577314
1/2818658
2/51686
11/98861
l/18/5//31
13281886638
1327521
181798861
1818757714
18288969499
192818668
192752186
1917988661
1918757714
19288969499
20281860
253616768
20
7988661
2018757714
2C288699
21275216
211075773
222818868
2227521686
2236591792
22187577141
22288969499
232/52166
318/5/31
user id时问
tem id
srid时问
user d时问
tem id
可er
时问
0221903
0215731753
025369792
C392265623
0201650
215731758
1288166
2
215731758
2
59798377
249554082
2325905736
32421303
215731758
35979377
349554C82
∠241213903
4215731758
459793377
9653
42881660
5241213903
5215731758
5325905736
624
6
649554082
6325905736
7287172448
7215731758
739225653
8
287172448
8215731758
25369792
E392265623
828816
87172448
925369792
3922
1287172448
1
215731758
5369792
10392265623
1C28160
1C23C9547
11241213903
03931
109400297
12392262125341
1139225023
1224121903
12
21573175010644323
13242193
13215731758
132536
133922
13325905
1
215/31/38
25369/92
139226523
1432590536
15241213903
15
153922523
15288
1624121390
13215731758
162536979
16392265623
17215731758
1725309792
17392265623
17325905736
1924121390
13215731758
1025369792
13392265623
18325905736
192123909
1y251/8
192536392
193922
19
41213903
23
215731758
2025369792
20392265623
8116660
21241213903
21215731758
2125369792
2139225623
2224
222
22392205623
288116660
23241213903
23215731753
2325369792
23392265623
232881160
进行模型评估时,由于我们没有2014年12月19号的购买数据,所以本文选用12
月18号用户购买数据作为标准进行评估。利用公式(10)(11)(12)求解得出F1的值
为21.593%。模型精度不髙,可能是由于本模型选取的数据量不够大,存在较高的偶然
(系统自动生成,下载前可以参看下载内容)
下载文件列表
相关说明
- 本站资源为会员上传分享交流与学习,如有侵犯您的权益,请联系我们删除.
- 本站是交换下载平台,提供交流渠道,下载内容来自于网络,除下载问题外,其它问题请自行百度。
- 本站已设置防盗链,请勿用迅雷、QQ旋风等多线程下载软件下载资源,下载后用WinRAR最新版进行解压.
- 如果您发现内容无法下载,请稍后再次尝试;或者到消费记录里找到下载记录反馈给我们.
- 下载后发现下载的内容跟说明不相乎,请到消费记录里找到下载记录反馈给我们,经确认后退回积分.
- 如下载前有疑问,可以通过点击"提供者"的名字,查看对方的联系方式,联系对方咨询.