• 邦盛科技CEO王新宇博士:“黑產”使金融行業年損失額近千億,基于行為數據的實時管控是發展方向


    來源:中國產業經濟信息網   時間:2018-05-29





      近日,愛分析在京舉辦了2018·中國大數據高峰論壇。金融大數據是大數據發展最為成熟的細分領域,愛分析邀請了金融大數據領域標桿公司邦盛科技的創始人王新宇進行主題演講。
     

      會上,王新宇就大數據處理技術的演進路線、流式大數據在金融事中風控的管理方法及落地案例等方面進行分享。王新宇認為,批流融合是大數據技術發展的未來趨勢,金融大數據風控已從以前的一致無差別的強認證,逐步發展成基于行為數據分析的實時動態區別管控。

    1527578215.png

      現將邦盛科技創始人王新宇的主題演講實錄分享。
     

      演講實錄
     

      王新宇:大家下午好,很高興在愛分析的組織的大數據峰會上和大家共同探討金融科技、金融大數據風控的相關話題。
     

      今天我演講的題目是《基于流式大數據實時處理的金融業務事中風險監控》,從技術角度來看,這是大數據中難度最大的一部分。我先講下數據分析處理技術的演進路線,然后與發展歷程相結合,介紹下基于流式大數據的金融實時風控的一些解決方案與案例。
     

      大數據分為批式大數據和流式大數據,批流融合是未來趨勢
     

      首先大數據從細分角度來講,可分為批式大數據和流式大數據。如果把大數據比著水,批式大數據就是已從江河匯聚到湖泊里的相對靜態的水,也就是歷史數據,而流式大數據相當于還在流動的水,或即將流入到湖泊里,匯入到批式大數據,這是比較直觀的解釋。
     

      流式大數據的處理,更強調實效性,流入湖泊的一瞬間,留給大家分析處理的時間是比較短的。也有人把流式大數據根據它流入湖泊的時間和速度劃分為不同熱度,新鮮產生的數據熱度最強,隨著流動的時間,熱度逐漸衰減,即將匯入到批式大數據的時候熱度最弱。
     

      什么時候的價值最大?剛產生的時候價值是最好的,及時分析處理,最能夠體現它在應用上的價值。如果它已經落地了,那么在價值鏈上也衰減了,而且是指數級的衰減。

    blob.png

      在大數據處理領域,趨勢上會朝著批式+流式處理結合的方向走。
     

      我們來看下現有的大數據的解決方案:先看批式大數據處理系統。我們談論的比較多的每年幾百億的大數據市場,大多是批式大數據市場,所用到的核心技術有集群計算、分布式計算,熟悉的系統有Hadoop、Spark,都是屬于這條技術體系。
     

      它的技術特點是數據處理的規模非常大,分析模式也比較靈活,你可以寫各種各樣的查詢語言,非常靈活。但這類技術體系在分析處理實時流數據的時候,遇到了非常大的障礙。
     

      下面來看流數據處理系統。這部分用到的核心技術是內存計算,計算引擎中有大家比較熟悉的Spark Streaming、storm、fink,它可以處理高實時性的數據,但處理規模受限,分析模式的靈活性也非常弱,只能把想好的邏輯預先埋入到流式引擎中。
     

      總結一下數據分析處理發展(OLAP)的里程,第一個是Database,之后是當數據量逐步增加的時候切入了Data Warehouse,然后隨著互聯網發展,數據量進一步增加,到了大數據時代出現了MapReduce等等,實際上批式發展到這個階段以后就進入了流式時代。雖然流式處理在數據量上受限,靈活性也還存在問題,但在時效性有很大的優勢,它的時效性可以做到毫秒級。
     

      現在的發展階段是批流融合,在處理大量規模數據的同時做到低延時,幾十或幾毫秒,甚至<1ms。后面我會通過案例跟大家展示一下現階段的我們的應用情況。
     

      要解決批流融合的技術問題其實是非常難的,首先要解決流式里面的指標存儲問題,如JVM存儲VS內存、數據庫VS分布式緩存、合理的存儲結構、存儲效率問題等等。
     

      然后是算法需增量計算問題,解決批流融合一定不是每次都要重新算的,一定不會采用純批次處理的理念,而是把所有的計算都做成增量計算,才能解決批流融合的問題。但有一些計算很難做到增量計算,比如說方差、標準差,需要算出每一個節點才能得出最終的結果,但在流式計算的時候沒有辦法到批式的歷史數據里面去拿每一個節點,如果去拿,時效性就慢了。對于一個最新的數據,要算全量的結果,這是繞不開的一個點。
     

      另外事件序列的識別,先發生什么、再發生什么、又發生什么等等的一系列的時間,在全量的歷史數據里面,到底發生了多少次,是否發生過,這樣的事件序列也是非常難的一個課題。很多很多的科研人員在這塊做了大量的工作。
     

      最后就是長周期大緯度,我們平時說的能處理流式數據,其實它的時間窗口也好,數據緯度也好,都是受一定限制的,你到底能不能處理一年的數據、十年的數據,還有我們常說客戶賬號下的所有的數據緯度我能處理,那么你能不能處理所有安卓手機訪問的,大緯度的數據,你能不能處理?這里面所要求長周期數據處理能力、大維度數據處理能力,也是批流融合必須要解決的問題。
     

      批流融合技術在金融事中風險監控的應用
     

      下面我講一下邦盛的大數據實時處理產品-流立方(StreamCube),StreamCube已經解決了上述大部分難題,做到了批流融合。它可以集成海量批式數據里面的知識,加上剛剛產生的數據流,結合二者進行實時分析,可以做到毫秒級,現在最多可以做到600-800微秒級的分析。處理數據量從幾天到幾十年都可以支持。同時提供基于時間窗口漂移的動態數據快速處理技術,并且能夠支持方差、標準差、協方差、連續遞增/遞減等多種計算模型。單節點可以處理每秒鐘8萬筆的時效性,寫可以做到8萬,讀可以做到40萬,集群理論上是沒有上限的。目前我們最大的客戶,集群處理的是1500億的交易流水,平均延時是在毫秒。
     

      剛才把整個OLAP的發展流程回顧了一下,現在我來介紹一下基于流立方的批流融合的技術,在金融業務的事中風險監控是如何做的。
     

      我先交代一下背景,實際上現在全國的黑色產業鏈是非常發達的,陽光產業鏈下的每一個產品創新,在黑色產業鏈上都會被正式“立項”。他們對于陽光產業鏈的產品線如何進行攻擊,都會進行一些線上的交流,所以在黑市上,這些信息的共享要比陽光產業鏈下暢通得多。全國黑色產業鏈約有160多萬人,主要分布在廣西、福建、海南、臺灣、黑龍江北部、山東等也很猖獗。陽光產業鏈上被黑色產業鏈詐取,盜取等等,金融行業年損失額近千億。
     

      黑色產業鏈分為上中下游,上游是以偷取數據和拖庫為主,中游是清洗數據,二次分發為主,下游是服務于整個黑色產業鏈的各種周邊組織,以銷贓為主。以前國內的黑色產業鏈主要集中在下游,但現在也在向中游和上游發展,以前中游東南亞做的比較多,這也是為什么大家發現,下游的銷贓、詐騙在福建,廣西比較多的,因為他們離東南亞比較近的,方便做一些數據的交易。
     

      欺詐的花樣是種類繁多的,不下幾百種,上千種,而且這樣的欺詐行為和欺詐場景是層出不窮的,比如你定一張機票,它就可以給你發一條欺詐短信說航班取消了,這些是流式欺詐,也就是說你的數據是流式的環節被泄露。
     

      下面講一下應對之道,過去十年金融科技領域在技術層和驗證層上做了大量的工作,還誕生了多家相關的上市公司,主要是想把欺詐者、動機不良的人擋在外面。但隨著互聯網技術發展,從實際效果來講很難做到。
     

      因為在互聯網的這個時代,大家的賬戶其實已經高度的信息集中化。比如我舉個例子,在一家網站的用戶名密碼被拖庫了,到另外一家網站上去用這套密碼撞庫的時候,同一個用戶在兩家網站使用相同密碼的比例高達25%-30%。我們每個人就是那么1、2套的用戶名和密碼,到處去注冊,已經不是技術層和驗證層防住就可以的了,它實際上可以分分鐘突破你的信息安全通道。
     

      所以現在更多是做策略層的風控。也就是需要基于數據分析,行為挖掘來做防控,即使你突破我的賬戶系統,我仍然知道你是誰,有方法阻攔你。
     

      策略型風控又分成三種形態。一種是事后批量分析,以前批式大數據主要是應用在這一形態下。另外一種就是準實時處理,就是說這筆交易、轉賬、提現我先放過去,一邊放一邊監控它是不是有問題,以前純流式處理是能夠做到一定程度的準實時的。
     

      另外一種就是純實時,也就是任何一筆交易、轉賬、匯款、提現等等,需要經過我審核后才會能給你放行,這個時效性要求是最高的,基本上是要在0.1秒,讓客戶無感知。也就是說事中的策略層防控沒有做得好與不好的區別,只有能做還是不能做。超過0.1秒客戶的體驗就會受到影響,會引起一定的客戶流失,對金融類機構而言,客戶流失可能會比被欺詐的損失還要大。
     

      我總結了一下金融業務反欺詐整個的發展趨勢,第一點是時效性,時效性逐漸從五年前的事后發展到現在的純實時,也就是以事中實時的預警和管控為主。從風控的效果來講,越是事中判斷越能夠拿到熱數據,熱數據的價值是最大的,判斷風險是最準的,誤報率和漏報率是最低的,所以純實時是這個領域的發展方向。
     

      另外從防御的手段角度開看,從單一的專家制定規則發展到多核驅動,通過機器學習,持續優化模型,提升風險識別能力來輔助專家規則進行風險判斷。
     

      還有就是系統建設,以前我們更傾向于單一業務風控,現在不論是金融集團還是行業聯盟,都發展到建設全渠道中央風控的階段,打破數據壁壘,多業務數據共享與聯防聯控,也就是說不再需要每上一條業務線都要建設單一的風控系統或風控模型。
     

      從總體趨勢上來講,從以前的一致無差別的強認證,現在已經發展成基于行為數據分析的實時動態區別管控。
     

      事中風險監控在支付、購票等具體交易場景的落地
     

      介紹完風控的管理方式,我給大家介紹幾個案例,第一個是我們邦盛科技在銀聯商務做的實時交易反欺詐的架構圖。上面一半是業務系統,下面一半是風控系統。
     

      事中交易反欺詐是客戶發起交易請求,由風控探頭將請求實時攔截,攔截到下面的風險監控系統里,進行實時的分析,一眨眼就要分析完,否則客戶就要在線上等。
     

      風控引擎再發回風險信號給所有的業務系統,由業務系統去做管控,比如說這筆交易風險是什么級別,高、中、低,是低風險的,就放行了,高風險的你可以進行驗證,比如手機動態短信驗證等。
     

      這個事中風險監控延時要求是0.1秒以內,現在所有帶銀聯標志的卡,在刷卡的時候,背后都是基于我剛才說的邦盛科技這項批流結合的技術來判斷這筆交易是不是盜卡、洗錢等等。
     

      很多人會問你邦盛科技提供的風控系統,怎么知道我這筆交易是有問題還是沒問題的?我舉一個計算邏輯,如果發生下面的這個序列,一張卡分別刷卡2萬、1.5萬、1萬都沒有刷出來,這樣的事件序列散落在你過去1個月的流水里面,那可能是欺詐者做的偽卡在最大化的套現。因為他不知道你的額度,但是他希望最大化把錢套出來。這是基于行為習慣挖掘的典型的風險規避模型。
     

      我們自己在用卡的時候,絕對不會出現剛剛描述的這種行為,這就是異常行為。還有查詢賬戶余額,查詢完之后后不到1秒鐘就做了清空轉賬,這是一種機器人的操作行為,因為人工操作不會那么快跳入到轉賬界面進行轉賬。邦盛科技研發的風控系統,能做這些判斷都是結合批式的海量歷史數據和當前發生的熱數據結合在一起,來分析的行為習慣和風險指標。
     

      我再給大家舉一個案例,基于批流結合的大數據風控場景。以前我們在一些購票網站買票的時候,都經歷過讓人頭疼的圖形驗證碼,經常要點好幾遍,因為圖形驗證碼難辨認,很多時候眼睜睜看著票被搶光。年紀稍微大一點的根本就沒有辦法買票了。這套驗證碼,原本是用來防止“黃牛”惡意搶票占座的,但后來黃牛很快升級了技術,通過機器人利用眾包識別技術,識別圖形驗證碼的通過率是70%-80%,比人的通過率還高。防控技術不得不隨之升級。
     

      邦盛科技基于批流結合的技術為該票務平臺做了實時機器防御識別系統,也就在批流結合的引擎——流立方之上我們加載了生物離散性模型,能夠在600-800μs通過對每位購票者的歷史行為進行建模分析(上百個規則與模型),精準識別票販子,其難度遠遠高于互聯網金融風控反欺詐系統。
     

      我舉個直觀一點的例子,讓大家有一點感覺,如果一臺設備提交買票請求每次都是間隔15分鐘,這種就是機器人在購票。當然現在機器人越來越聰明,也開始隨機交易,但是通過統計變量的時候,他也是一個斷帶一個斷帶的,斷帶之外的離散點是沒有的,很干凈。
     

      我們做的實時智能防御系統,如果發現是人在購票,就不再彈出圖形驗證碼,直接進入購票界面,如果發現是機器人,就會彈出更加復雜的圖形驗證碼,提高識別難度。
     

      批流結合的大數據分析技術,除金融反欺詐以外,還可以應用在電信、交通、公安、海關、航空航天、軍工、氣象、互聯網等行業和場景。縱向來看,每個行業的報表數據實時處理、可視化分析、合規檢查,精準營銷也都需要這項技術。
     

      最后我簡單介紹一下邦盛科技,邦盛科技主要是在做大數據實時智能處理技術,以及基于該技術專注金融實時風控解決方案。我們比較有名的平臺就是流式大數據極速處理平臺“流立方”,在2017年12家股份制銀行里面有8家用的是基于“流立方”的實時反欺詐技術,全國排名前30的第三方支付機構中,有20多家采用邦盛的產品作為中央風控平臺。
     

      我們研發“流立方”花了好幾年的時間,公司已經成立八年了,前五年都是研發“流立方”,沒有出去做業務。
     

      自有實時風控與反欺詐模型庫包含各類業務模型2400多個,覆蓋100多種的欺詐場景;欺詐黑名單數據上億級。
     

      做大數據風控和實時反欺詐這一塊,除了有引擎以外,還需要反欺詐的技術,反欺詐的數據,反欺詐的模型,還有反欺詐應用產品管控系統。所以做大數據風控也好,反欺詐也好,絕對不是單純的有數據就能做,這是一個系統級的解決方案。
     

      剛剛講過的這一項技術已經應用在各行各業,目前已經有200多家金融和泛金融領域客戶用上了“流立方”。好,謝謝各位。
     

      轉自:北國網

      版權及免責聲明:凡本網所屬版權作品,轉載時須獲得授權并注明來源“中國產業經濟信息網”,違者本網將保留追究其相關法律責任的權力。凡轉載文章,不代表本網觀點和立場。版權事宜請聯系:010-65363056。

    延伸閱讀

    ?

    版權所有:中國產業經濟信息網京ICP備11041399號-2京公網安備11010502003583

    www.色五月.com