大数据于金融领域的思维与实践

2013年09月23日 13:16
来源：21世纪经济报道作者：雷涛

互联网对于金融，主要是支付、信贷、储蓄三个方面。综合来看，识别用户的行为和潜在需求，了解和感知市场，进而形成一个正反馈的干预市场的能力，这可以看做是金融企业的IQ。

大数据帮助金融企业提升IQ

互联网对于金融，主要是支付、信贷、储蓄三个方面。我们认为，现在大数据在互联网金融领域主要解决三个问题，第一是解决运营交易成本过高的问题。网银降低了20万个网点成本，而阿里主要是把信用和抵押进行置换。第二是提供流动性，解决资产与负债流动性不匹配的问题。P2P就是将存款进行转让，比如众筹。第三是拓展4000万中小微企业市场。互联网金融出现以后，更大的变化是把市场体量做大了，不是只服务于我们现有的客户，还可以把碎片化的需求和供给进行整合，进而细化渗透到很多中小企业市场和中小客户市场。

而我们也关注到了市场的另一端，即高端客户市场，也就是理财的运营市场。对于理财市场客户，应该是通过线下接触最好。但海外金融机构也提到，对于每一位高端客户，与他接触的次数以及准确接触的能力都是非常有限的。那么，怎样把精准的内容和手段提供给高端理财客户？这也是大数据解决的问题之一。

大家都在谈互联网的优势，觉得互联网很美妙。但是要研究互联网，一定要面对互联网自身的问题，其中最具挑战的就是信息过载问题。在互联网上，信息以WebPage的形式呈现，等待人们去点击，那么互联网的主体必然是注意力经济。例如，2013年1月，财经金融类网站总访问次数381539万，访问时长9122万小时，即10413年。在此情况下，不可能用传统的方式获取所有的信息。如何从这些过载的信息中获取被稀释了的数据价值呢？这是移动互联网面对的最具挑战的一个问题。

那么，是不是互联网就是终极形态？我们给出了一个经济范畴的定义，即这样的模式怎么去挣钱。互联网早期最简单的业务形式是2B，传统经济模式下，企业向客户出售产品或服务，以直接赚取金钱为目的，衡量指标就是产量等概念。第二个时代就是2C，互联网经济下，企业尽可能多地发展用户，不以直接从用户处赚取金钱为目的，希望通过后向收费或者发掘用户终身价值等方式赚取利润。这个时代，像谷歌、Facebook等公司主要是经营用户，用户体量就是衡量标准。

未来我们看到的将是2D的业务形态，也就是大数据经济。数据将是未来企业的重要资产，企业通过数据创造新的商业模式，或直接通过数据售卖以及利用数据提供增值服务获得巨大利润。在这一时代，海量用户和良好的数据资产将成为未来核心竞争力与收入的重要来源。这个数据未必是靠人的点击。比如，你可能与运营商没有任何交易往来，但是手机的传感器在持续记录你的位置信息，这个信息在不断地跟基站通讯，你的行为就已经被运营商捕捉了。所以2D更多的是以数据为驱动力的生意模式。这种生意模式把附加值扩展得很大。而互联网只能通过广告来盈利，因为它依靠的是注意力经济。这种模式下，很难挣钱，只有少量通过马太效应才能盈利。现在细分市场的很多数据规模能驱动产生新的价值。

以上是大的经济形态。具体来讲，大数据更多的是帮助金融企业包括传统银行获得金融IQ，即接触市场和接触用户的权利和能力。在我们看来，传统银行的数据价值远大于互联网公司。其实，金融企业很多线下的数据沉睡在数据库里了，大家千万不要小瞧，这些数据的价值远远大于阿里数据的价值。

金融用规则创造了一个很好的商业形态，但是这种形态离市场和用户越来越远，几千万用户的数据对银行而言是陌生的图像。而互联网因为其直接是免费使用，所以必须非常准确地定位用户，而一个用户身后甚至有超过十万个标签，这些标签的维度非常稀疏。大家可能对精准推荐比较好奇，比如高跟鞋，分高跟、坡跟、外高跟、内高跟等，这种精确的描述是对以前那种定向化的数据维度一个极大的突破。而这种突破，使得对于客户的理解和描述非常清晰。这个手段，就是我们说的大数据手段。

综合来看，识别用户的行为和潜在需求，了解和感知市场，进而形成一个正反馈的干预市场的能力，这可以看做是金融企业的IQ。

金融企业如何拥抱大数据？

大数据可以帮助金融企业解决信息不对称，解决营销、定价、风险和欺诈问题。一年来我们做了一些案例，主要体现在三个方面：

第一是市场营销，包括交叉销售、二次销售方面，体现在如何进行客户挽留、客户价值评估等。例如给保险公司做了全量的数据处理后，就可以实现很多财险和寿险的匹配。还包括客服投诉评估和产品投放评估等。某一个产品的上线和下线数据，不需要几个月以后从市场上获得，而是直接从线上的数据来获取。第二是信贷和风险，主要是信用分配、风险评估、实施授权、风险干预和欺诈识别等。第三是预测与估价，包括周期行为分析、量化分析、流失分析、催收分析等。

实现路径很关键的点，就是“去IOE”（替代IBM的小型机、Oracle数据库、EMC的存储）。完备数据是核心，能处理一千倍以上数据规模，而这需要颠覆性的系统架构才能解决。我们为一家大的股份制银行做完备数据做了很长时间，这个过程很有意义。它可以帮助用户看到以前看不到的很多事实，过去需要通过业务规则、银行家的经验形成的业务判断，现在通过机器学习的方式，发现了很多新规则。比如异常交易、欺诈等，很多都是通过数据本身的特性发现的。

科技创新本身带来的深刻变革就发生在今天。自阿里巴巴2009年高调宣布“去IOE”战略以来，今年欢送为支付宝用户服务了5年的最后一台小型机，标志着阿里巴巴“去IOE运动”的又一阶段性成果。现在太多银行用僵化的表结构，用字段的方式去对客户、市场、业务规则做描述，而新的互联网的思路是用一张表就处理完成。我们给运营商只用一张单维的表，就能全部覆盖2.5亿用户。数据可以非常稀疏，但是省了很多数据处理逻辑的复杂操作。这些新的结构完全是依赖于云计算新的方式。

另外，金融业本身也在发生业务革新。银行属性从记账式的卖方更多转向风险、欺诈、定价的买方属性，而这些特点很多都是非线性的，需要大量的计算能力。业务驱动加之科技目标驱动，使得新的基础设施部署成为必然。

大数据首先要数据全量在线。现在太多系统都是孤立的，银行的对公、对私，还有卡业务都是分开的，当把所有业务糅合在一起时，会发现很多客观规律。

舍恩伯格的《大数据时代》在国内非常畅销，书中有一个核心的概念——全量。因为全量视角下看到的内容、方式完全不一样。有一个保险公司的案例，这家保险公司以前只能做抽样，对高端人群、对某一个险种人群的调查，通过在两千个维度里抽取一些维度，比如收入，进行建模，建模之后进行试用，再考察结论。现在有了大规模的计算能力，就不进行干预，完全让机器自己去找规律，让机器学习出在两千个维度里到底什么是建模的规则，这完全是黑箱建模的思路。

黑箱建模让我们发现了很多以前我们不知道的内容和规律。比如，实现机器学习以后，我们能发现反洗钱有1000多条在线规则。对于保险用户，我们也发现很多有意思的现象，在九千多万用户里有百分之零点几的用户的年收入4万多，但是买了7万多的保险产品。那么相应的销售人员是以怎样的保险理财理念去推销产品的？有怎样的经验？这是需要发掘的。当然，为了面向用户，所有大数据的处理要做到容易解读。在这个过程中，全量数据可以帮助发现业务规则。

在无假设条件下，通过机器学习能发现用户的一些特征。这些工具、方式、方法，帮助金融用户非常清楚地了解到以前未知的市场和未知的用户。

现在大数据又扩展到另外一个范畴。自然语义的内容、视觉的内容、行为关系网络等复杂的关系，这些内容在以前的数据结构上很难处理，现在有了大规模的计算平台，大数据可以让系统用新的组织方式，比如矩阵、向量进行处理。比如关系网络，快递人员给许多收件人打电话，这些人没有互相形成拓扑结构。这个数据非常稀疏，但是有很大的社会属性和经济价值，它会通过评估关系的链条来描述出很多个体的社会属性，也就是个体的社会资本。现在供应链金融规模比较大，但是是靠线下、专业领域技巧去识别供应链。其实银行根据转账记录建立一个大的社交网络就可以传播这些链条，就可以把一些细碎的、小型供应链通过计算模式挖掘出来。

以前我们了解一件事情，可能大多是非常准确、非常精确的，不允许有任何混杂性的操作，要完全匹配。比如，面对流感这样的突发性疫情，利用互联网信息可以快速确认疫情分布。传统做法是通过搜索引擎技术对相关关键词进行主题跟踪，得到疫情分布。

大数据一个著名的故事，就是Google用twitter的数据做预测，也是最早利用大数据技术对美国流感分布情况进行预测，并取得成功。比如不久前我国爆发的H7N9禽流感，天云大数据公司采用语义空间主题投影方式，跟踪了数百个相互关联的信息点，建立语义网络，在二度以上传播空间深度挖掘，从而发现了更多不为认知的事实。其中用到了上千个变量，有H7N9、流感、豆粕、鸡、发热、口罩、医院等，每一个变量有权重，每一个变量有依赖关系，这些依赖关系和权重从数亿片的论坛、微博、专业资讯网站里抽取出来。建立模型以后，可以跟踪整个主题变化。将主题热度与豆粕价格做比较，显示出明显的负相关性。对于期货公司而言，这些碎片化的公共的信息具有巨大经济价值。这些以前我们认为碎片化的东西、情绪化的东西，很难量化，现在可以被大数据的能力所量化了。

对数据进行分析可以挖掘出大量沉睡的文字性内容。比如银行信用卡记录，以前我们只能靠用户的消费水平去识别这个用户属于高端、中端还是低端。除了数字以外，是不是还有其他信息呢？比如消费记录，他是经常去沃尔玛还是其他超市购物，经常去夜店还是星巴克，怎么识别他是一个白领还是一个新新人类？这些通过分类能非常清晰地获取。也就是以前我们可以对数据进行操作，现在对文字也同样可以进行操作。

怎样刻画人与人之间的关系？例如，社会资本来自运营商通话记录的评估，运营商可以通过电话的输入输出记录把一个人社会资本客观地做一个输出。人力资本来自招聘网站、社交网络，可以通过他的简历进行评估。金融资本来自网上交易、生活缴付、房屋车辆不动产。

怎么解决互联网上的过载问题？一位股票分析师每天要花四五个小时看大量信息，其过程可以让机器自动化实现，通过机器写出缩略的方式把过载的东西突出出来。这个还不够，关键是情绪，把大涨、猛增、下跌这些有极性的内容突出显示。极性在机器里理解，就是一个维度，一个值，这个值可以跟商品期货做一个相关性的匹配。

大数据的实践

要精确，还是要混杂？

比如一家保险公司，怎样评估它的产品？品牌是很模糊、很难量化的东西，我们用了十多亿条微博数据和论坛数据来画一条曲线，也就是在这个周期之内品牌的波动，就可以把品牌感知量化，把产品投放也量化。

要群体，还是要个体？

如何来看大数据与传统数据的区别？银行做数据业务做了十多年，那么大数据和传统数据的仓库有哪些差异？实际上就是群体和个体的差异。互联网数据完全瞄向个体，数据结构也是精准于个体，而传统的数据面向经营指标、面向群体。宏观意义上来看，假如小明去了一百次书店，以前要回答的问题是他第一百零一次买不买书，即业绩和经营指标的问题；而现在，互联网关心的是什么？最关心的是他第一百零一次买什么书，需要将什么样的内容推荐给他。这不是一个概率问题，而是一个模糊的程度问题。

要量化这个程度，我们一定要基于个体，而不是基于群体的共性描述。传统定义上，更多关注的是一类人群，用同一类规则制订套餐给他们；而在互联网时代，要把每个人都精准刻画出来，进行精准匹配。有电商说他们要做到一百万用户要有一百万个商店，特别是在移动的小屏幕上，三次点击以后就会损失一个客户。所以差异化绝对不可能是对群体共性的描述，而完全是对个体差异的刻画。

要决策，还是要工具？

大数据到底是面向决策还是面向工具？很多人认为大数据是决策性的，是让人获得更多洞察力的一个工具。实际上大数据更多的是一个自动化的匹配工具。

一个典型案例，我们为一家保险公司计算了九千万用户在每一个险种上的流失概率，之后他们要求我们汇总成一份报告，将流失百分比的数据向领导汇报。当结论上升到领导的时候，这个决策必须是宏观的，而且周期很长，几个月以后反馈回来可能就有偏差了。而大数据的动作是直接把东西下沉，九千万个用户的所有流失概率全部分给五万个保险代理人，每个人通过专门的程序就可以看到由他负责的客户到底在做什么样的动作，而这个行动是由基层直接完成的。所以是把这些权限和能力全部推到一线，而不是上升、汇总到总部做决策。所以大数据更多的是一个自动进行的过程，而不是分析决策的过程。