使用機器學習的欺詐檢測過程始于收集和分段數(shù)據(jù)。然后,將機器學習模型與訓(xùn)練集一起提供,以預(yù)測欺詐的可能性。提取通常,數(shù)據(jù)將分為三個不同的部分-訓(xùn)練,測試和交叉驗證。鄭州vi設(shè)計公司將在測試集上調(diào)整的部分數(shù)據(jù)和參數(shù)上訓(xùn)練該算法。使用交叉驗證集來測量數(shù)據(jù)的性能。然后將測試高性能模型的各種隨機數(shù)據(jù)分割,以確保結(jié)果的一致性。
提供訓(xùn)練集
機器學習在欺詐檢測中的主要應(yīng)用是預(yù)測。給定一些輸入值(例如,發(fā)卡的國家/地區(qū)和不同國家/地區(qū)的數(shù)量),鄭州vi設(shè)計公司希望預(yù)測某些輸出的值(在這種情況下,如果付款是欺詐的,則為布爾值,否則為false)該卡已在過去一天使用過)。用于訓(xùn)練ML模型的數(shù)據(jù)由記錄以及兩個輸入值的輸出組成。這些記錄通常是從歷史數(shù)據(jù)中獲得的。
建筑模型
建立模型是預(yù)測數(shù)據(jù)集中欺詐或異常的必不可少的步驟。我們根據(jù)輸入和輸出數(shù)據(jù)的先前示例確定如何進行該預(yù)測。我們可以將預(yù)測問題進一步分為兩種任務(wù):
1. Logistic回歸
回歸分析是一種流行的長期統(tǒng)計技術(shù),用于測量結(jié)構(gòu)化數(shù)據(jù)集中因果關(guān)系的強度。由于變量的數(shù)量和數(shù)據(jù)集的大小,回歸分析在應(yīng)用于使用機器學習進行欺詐檢測時趨于變得更加復(fù)雜。它可以通過評估單個變量或變量組合的預(yù)測能力(作為更大的欺詐策略的一部分)來提供價值。在這些技術(shù)中,將真實交易與欺詐交易進行比較以創(chuàng)建算法。該模型(算法)將預(yù)測新交易是否欺詐。對于非常龐大的商家,這些模型是特定于其客戶群的,但是通常,將使用通用模型。
2.決策樹
這是一個成熟的機器學習算法系列,用于自動創(chuàng)建分類任務(wù)的規(guī)則。決策樹算法可用于分類或回歸預(yù)測建模問題。它們本質(zhì)上是一組規(guī)則,使用客戶面臨的欺詐示例對其進行培訓(xùn)。樹的創(chuàng)建會忽略無關(guān)的功能,并且不需要對數(shù)據(jù)進行廣泛的標準化??梢詸z查一棵樹,鄭州vi設(shè)計公司可以理解為什么遵循某個客戶觸發(fā)的規(guī)則列表來做出決定。機器學習算法的輸出可能是類似于以下決策樹的模型。這給出了基于較早場景的欺詐概率分數(shù)。
3.隨機森林
隨機森林技術(shù)使用多個決策樹的組合來提高分類或回歸的性能。它使我們能夠消除單個樹中可能存在的錯誤。它提高了模型的整體性能和準確性,同時保持了鄭州vi設(shè)計公司解釋結(jié)果并向用戶提供可解釋分數(shù)的能力。隨機林的運行時非??欤⑶夷軌蛱幚聿黄胶夂蛠G失的數(shù)據(jù)。隨機森林的弱點是,當用于回歸時,它們無法預(yù)測訓(xùn)練數(shù)據(jù)范圍之外的值,并且它們可能過度擬合特別嘈雜的數(shù)據(jù)集。當然,任何算法的最佳測試是它在您自己的數(shù)據(jù)集上的運行情況。
4.神經(jīng)網(wǎng)絡(luò)
它是對其他技術(shù)的極佳補充,并隨著數(shù)據(jù)的暴露而提高。神經(jīng)網(wǎng)絡(luò)是認知計算技術(shù)的一部分,其中機器模仿人腦的工作方式以及其觀察模式的方式。神經(jīng)網(wǎng)絡(luò)是完全自適應(yīng)的。能夠從合法行為的模式中學習。這些可以適應(yīng)正常交易行為的變化并識別欺詐交易的模式。神經(jīng)網(wǎng)絡(luò)的過程非???,可以實時做出決策。
使用機器學習進行欺詐檢測的局限性
機器學習不是欺詐檢測的靈丹妙藥。這是一項非常有用的技術(shù),可讓鄭州vi設(shè)計公司在日常交易中查找異常的模式。它們確實優(yōu)于早期組織采用的人工審查和基于規(guī)則的方法。但是這種欺詐檢測技術(shù)有其自身的局限性:
1.缺乏可檢查性
在Maruti Techlabs,我們?yōu)榭蛻艟S護后端機器學習模型。因此,鄭州vi設(shè)計公司需要解釋將買方或賣方標記為欺詐者并阻止使用該系統(tǒng)的原因。我們還需要這樣做,以便我們的客戶可以確認欺詐并因此對系統(tǒng)進行培訓(xùn)。實際上,機器學習僅與其背后的人類數(shù)據(jù)科學家一樣好。即使是最先進的技術(shù)也無法取代有效過濾和處理數(shù)據(jù)以及評估風險評分含義所需的專業(yè)知識和判斷力。因此,盡管我們已通過基于規(guī)則的技術(shù)消除了此問題,但缺乏可檢查性可能是某些其他基于機器學習的方法的缺點。
2.冷啟動
鄭州vi設(shè)計公司需要大量數(shù)據(jù)才能變得準確。對于大型組織而言,此數(shù)據(jù)量不是問題,但對于其他組織而言,必須有足夠的數(shù)據(jù)點來標識合法的因果關(guān)系。如果沒有適當?shù)臄?shù)據(jù),機器可能會學到錯誤的推論,并做出錯誤或不相關(guān)的欺詐評估。通常最好先應(yīng)用一組基本規(guī)則,然后讓機器學習模型“預(yù)熱”更多數(shù)據(jù)。我們通常將這種方法應(yīng)用于較小的數(shù)據(jù)集。
3.盲目連接數(shù)據(jù)
機器學習模型處理動作,行為和活動。最初,當數(shù)據(jù)集較小時,它們對數(shù)據(jù)中的連接視而不見。該模型可以忽略一個看似顯而易見的聯(lián)系,例如兩個帳戶之間的共享卡。為了解決這個問題,鄭州vi設(shè)計公司使用Graph網(wǎng)絡(luò)增強了模型。圖技術(shù)可以為通過計分避免的每個人找到多個假演員。圖形數(shù)據(jù)庫使我們能夠在嫌疑人和虛假帳戶采取任何欺詐措施之前將其阻止。下圖顯示了一個簡單的買方保險欺詐案件,以圖形表示。
由于機器學習在院士和行業(yè)專家中都是非常受歡迎的領(lǐng)域,因此存在很大的創(chuàng)新范圍。試用不同的算法和模型可以幫助您的企業(yè)檢測欺詐。機器學習技術(shù)顯然比人工審查和交易規(guī)則更可靠。機器學習解決方案高效,可擴展并且可以實時處理大量交易。但是提取數(shù)據(jù)和訓(xùn)練數(shù)據(jù)集以進行正確的預(yù)測是一項艱巨的任務(wù)。
為了檢測可疑活動,更重要的是將虛假警報與真實欺詐分開,鄭州vi設(shè)計公司使用使用開源工具構(gòu)建的本地AI引擎。由于采用了這種人類和AI解決方案,Paypal的誤報率降低了一半。但是銀行在大規(guī)模采用機器學習和AI解決方案方面進展緩慢。這是因為高昂的基礎(chǔ)設(shè)施成本,嚴格的法規(guī)以及更換現(xiàn)有技術(shù)的風險。然而,鄭州vi設(shè)計公司可以開始使用機器學習解決方案來分析非結(jié)構(gòu)化信息,例如監(jiān)視社交媒體和檢查客戶帳戶是否存在異常。
總監(jiān)微信咨詢 舒先生
業(yè)務(wù)咨詢 付小姐
業(yè)務(wù)咨詢 張小姐