2015/10/22 Hadoop 练习
  1. 根据lac_id和start_time知道用户当时的位置,根据staytime知道用户各个基站的逗留时长。根据轨迹合并连续基站的staytime。最终得到每一个用户按时间排序在每一个基站驻留时长。

    13429100031 22554 8 2013-03-11 08:55:19.151754088 571 571 282 571
    13429100082 22540 8 2013-03-11 08:58:20.152622488 571 571 270 571
    13429100082 22691 8 2013-03-11 08:56:37.149593624 571 571 103 571
    13429100087 22705 8 2013-03-11 08:56:51.139539816 571 571 220 571
    13429100087 22540 8 2013-03-11 08:55:45.150276800 571 571 66 571
    13429100082 22540 8 2013-03-11 08:55:38.140225200 571 571 133 571
    13429100140 26642 9 2013-03-11 09:02:19.151754088 571 571 18 571
    13429100082 22691 8 2013-03-11 08:57:32.151754088 571 571 287 571
    13429100189 22558 8 2013-03-11 08:56:24.139539816 571 571 48 571
    13429100349 22503 8 2013-03-11 08:54:30.152622440 571 571 211 571

product_no lac_id moment start_time user_id county_id staytime city_id
  1. 计算第四列每个元素出现的个数

    a,b,c,d
    b,b,f,e
    a,a,c,f
    b,b,f,a
    b,b,f,e

  2. 计算高峰时间段(如上午10点-11点)哪张表被访问的最频繁,以及这段时间访问这张表最多的用户,以及这个用户的总时间开销。

    TableName(表名),Time(时间),User(用户),TimeSpan(时间开销)
    t1 09:59:20 u1 1
    t2 10:02:20 u4 2
    t1 10:12:20 u3 3
    t2 10:22:20 u3 2
    t2 10:32:20 u2 5
    t3 10:42:20 u1 2
    t3 10:52:20 u2 7
    t4 10:22:20 u1 9
    t1 10:32:20 u4 2

  3. 输出不在Order的customer

  1. 输入2天股价波动