DCIC2019-消费者画像

写在前面：这是第一次数据比赛进前排，还只身去了北京参加答辩，这对于我来说是一个起点，是一个重大转折。在北京的时候，去北大听了一节课，也有些感受，后续会提到。这篇博客，主要总结比赛经验与比赛收获。

赛题说明

赛题链接,看完后，应该知道这是一个回归问题，利用移动用户的数据来回归用户的信用分。这个问题意义在哪呢？训练集中的信用分是哪来的？其实中国移动有一套信用分评分体系，所有的信用分都是按照这个体系得到的，那我们建模的意义何在？这个问题我在北京答辩的时候得到了答案，后续会给出。

数据探索

数据探索这里不会详细讲，参考我的repo。由于数据太多了，我将数据可视化分成了几个部分，一个个来探索它们之间的关系，在这里我做的不对的就是没有按照官方的几个维度来探索，而是自己分的，这一点以后要注意。而且，数据探索应该放在查资料的后面，先查一下相关资料，对特征有一个大致了解。

特征工程

这个题的特征工程真是奇怪，怎么做都不上分。具体参考文档,以及repo答辩材料的ppt。

比赛总结

我最想写的部分就是比赛总结了。在答辩的前一天晚上，我们和福建移动的负责人聊了聊，我问了一个问题，我们这个赛题有什么意义。为什么要给出训练集的信用分，让我们去预测测试集？为什么不直接让我们建立数学模型，来给用户评分？他说：“你问了一个很好的问题，实际当中，是直接建立数学模型来给用户评分，但是这样做，我们就很难评判谁的模型好，没有一个衡量的标准。因此我们给出一个标准，这个标准实际意义不大，不是说谁拟合的好，谁的模型就好，但是比赛有比赛的规矩，我们也不能完全抛开比赛的规矩，分数高的，优势自然也大。”我想了想，他说的确实有道理，标准存在的意义就是约束我们的模型，毕竟他们的标准用了这么久，肯定是有很大意义的，所以我们要在标准的基础上，做出我们的思考与创新，后来他提到，他们有两千多维数据，而且不断的有流水更新，给我们的只是其中30维，这是方便我们处理。这么一说，我觉得这个题没啥意义，数据的维度增多，思维也应该转变，不能再像小数据那样思考问题了，而且在实际业务中，还要考虑更多问题。

再来总结一下一些技术收获：

数据分布的处理：对于不是正态分布的数据，对其做对数变换，从而转变成近似正太分布。变换后，需不需要取整还需要进一步验证。
特征交叉：对于bool类型特征，几个特征交叉，产生新的特征。
模型融合：stacking策略有时候不如线性组合。
五折交叉：五折交叉时，随机抽样与分层抽样的区别。

旅途感想

这次出行，感谢女朋友的鼓舞，让我有勇气上台答辩，也感谢朋友的招待，让我在北京的玩了几天，感谢骆高，让我有机会去北大听课。在北大听了一节算法分析与设计的课，刚好老师讲的线性规划，我暑假学过，但是还是没怎么听懂，知识不记得了，不得不说，这个老师也是念ppt，和武大一些老师一样，下面的学生也有玩游戏的，也有睡觉的（其他人我不知道，反正我睡了十几分钟）。这么一看，武大和北大课堂除了北大教室特别新以外没什么区别，那么他们为什么如此厉害？

我想有几点：