My Blog

Work hard, play hard !

DCIC2019-消费者画像

写在前面:这是第一次数据比赛进前排,还只身去了北京参加答辩,这对于我来说是一个起点,是一个重大转折。在北京的时候,去北大听了一节课,也有些感受,后续会提到。这篇博客,主要总结比赛经验与比赛收获。

赛题说明

赛题链接,看完后,应该知道这是一个回归问题,利用移动用户的数据来回归用户的信用分。这个问题意义在哪呢?训练集中的信用分是哪来的?其实中国移动有一套信用分评分体系,所有的信用分都是按照这个体系得到的,那我们建模的意义何在?这个问题我在北京答辩的时候得到了答案,后续会给出。

数据探索

数据探索这里不会详细讲,参考我的repo。由于数据太多了,我将数据可视化分成了几个部分,一个个来探索它们之间的关系,在这里我做的不对的就是没有按照官方的几个维度来探索,而是自己分的,这一点以后要注意。而且,数据探索应该放在查资料的后面,先查一下相关资料,对特征有一个大致了解。

特征工程

这个题的特征工程真是奇怪,怎么做都不上分。具体参考文档,以及repo答辩材料的ppt。

比赛总结

我最想写的部分就是比赛总结了。在答辩的前一天晚上,我们和福建移动的负责人聊了聊,我问了一个问题,我们这个赛题有什么意义。为什么要给出训练集的信用分,让我们去预测测试集?为什么不直接让我们建立数学模型,来给用户评分?他说:“你问了一个很好的问题,实际当中,是直接建立数学模型来给用户评分,但是这样做,我们就很难评判谁的模型好,没有一个衡量的标准。因此我们给出一个标准,这个标准实际意义不大,不是说谁拟合的好,谁的模型就好,但是比赛有比赛的规矩,我们也不能完全抛开比赛的规矩,分数高的,优势自然也大。”我想了想,他说的确实有道理,标准存在的意义就是约束我们的模型,毕竟他们的标准用了这么久,肯定是有很大意义的,所以我们要在标准的基础上,做出我们的思考与创新,后来他提到,他们有两千多维数据,而且不断的有流水更新,给我们的只是其中30维,这是方便我们处理。这么一说,我觉得这个题没啥意义,数据的维度增多,思维也应该转变,不能再像小数据那样思考问题了,而且在实际业务中,还要考虑更多问题。

再来总结一下一些技术收获:

  1. 数据分布的处理:对于不是正态分布的数据,对其做对数变换,从而转变成近似正太分布。变换后,需不需要取整还需要进一步验证。
  2. 特征交叉:对于bool类型特征,几个特征交叉,产生新的特征。
  3. 模型融合:stacking策略有时候不如线性组合。
  4. 五折交叉:五折交叉时,随机抽样与分层抽样的区别。

旅途感想

这次出行,感谢女朋友的鼓舞,让我有勇气上台答辩,也感谢朋友的招待,让我在北京的玩了几天,感谢骆高,让我有机会去北大听课。在北大听了一节算法分析与设计的课,刚好老师讲的线性规划,我暑假学过,但是还是没怎么听懂,知识不记得了,不得不说,这个老师也是念ppt,和武大一些老师一样,下面的学生也有玩游戏的,也有睡觉的(其他人我不知道,反正我睡了十几分钟)。这么一看,武大和北大课堂除了北大教室特别新以外没什么区别,那么他们为什么如此厉害?

我想有几点:

  1. 学生优秀,自主学习能力强。
  2. 环境压力大,科研氛围浓烈。举个例子,食堂有几块显示屏,播放学校一些实验室的牛人。
  3. 实验室对本科生比较好,只要你愿意,就可以来实验室,进项目组,项目组也会投入精力到你身上。
  4. 他们的食堂好吃,吃好了才能好好学习。(这是玩笑,哈哈)

回程的前几个小时,我还去了中关村,去看了看微软大厦(对它念念不忘):

进了一号楼,去问了前台能不能参观,她说不能,我就打道回府了。

微软亚洲研究院,我会回来了,明日之星,我会来的。丹棱街,等着我

奉上相册