基于空间的用户标签分析

2011级软件 刘圣超
校内指导老师:王慧
校外指导老师:马亮

基于空间的用户标签分析

1.大数据下的快速数据检索

1.1 (读)对数据源的数据分析以及数据库查询的优化

1.1.2 可行性分析——测试文件

1.1.2 可行性分析——实际文件

1.大数据下的快速数据检索

1.2 (写)对数据库插入的优化

1.2.2 可行性分析——测试文件

文件名 通过JDBC插入MySQL 通过load data插入MySQL
文件1所用时间: 251 237ms 3 097ms
插入行数: 8 0067行 8 0060行
文件2所用时间: 160 916ms 2 605ms
插入行数: 5 2538行 5 2538行
文件3所用时间: 631 650ms 6 151ms
插入行数: 11 1947行 11 1946行
文件4所用时间: 218 236ms 2 907ms
插入行数: 4 0812行 4 0812行
文件5所用时间: 237 093ms 3 564ms
插入行数: 3 7812行 3 7812行

1.2.2 可行性分析——实际文件

实际应该插入8140 6818行数据

总共数据行数n bit array个数m 哈希函数和数K 插入条数 实际误判率 用时
1.6E8 2^31=2.14E9 8 8137 6396 0.00037370 1967 586ms
1.6E8 2^31=2.14E9 9 8138 1618 0.00030956 1922 394ms
1.6E8 2^31=2.14E9 10 8138 1607 0.00030969 1988 381ms
1.6E8 2^31=2.14E9 11 8133 6079 0.00086896 1925 325ms
1.6E8 2^31=2.14E9 12 8133 2380 0.00091440 1989 936ms
1.6E8 2^31=2.14E9 13 8132 8004 0.00096815 1987 918ms

2.基于海量位置分析用户基本特征

2.1 GPS坐标在不同城市的频率分布

2.2 GPS坐标在不同街区的频率分布

  • 2.2.1 算法选择
  • 2.2.2 有效性指数
  • 2.2.3 优化方案
  • 2.2.4 校验以及图片展示

2.2.1 算法选择

2.2.2 有效性指数

有效性指数展示

猜测及验证

2.2.3 优化方案

  • 数据特点
  • 后需要求
  • K=2 K=4 K=8 K=12
  • Canopy K-means

2.2.4 校验以及图片展示

限定时间(白天) 限定时间(夜晚) 非限定时间

面积覆盖:将限定时间的面积总和与非限定时间的面积比值

对所有数据进行高斯拟合

结论

The future world will be connected by data.

Jack Ma

/