Link elemzés - Link analysis

A hálózat elmélet , kapcsolat elemzésére egy adatelemzés technika értékelésére használt összefüggések (kapcsolatok) a csomópontok között. A kapcsolatok különféle típusú csomópontok (objektumok) között azonosíthatók, ideértve a szervezeteket , az embereket és a tranzakciókat . A linkelemzést a bűncselekmények ( csalás felderítése , terrorizmus elleni küzdelem és hírszerzés ), számítógépes biztonsági elemzés , keresőmotor-optimalizálás , piackutatás , orvosi kutatás és művészet elemzésére használták .

Tudásfelfedezés

A tudásfelfedezés egy iteratív és interaktív folyamat, amelyet az adatok mintáinak azonosítására , elemzésére és vizualizálására használnak . A hálózatelemzés, a linkanalízis és a szociális háló-elemzés mind a tudásfelfedezés módszerei, mindegyik a korábbi módszer megfelelő részhalmaza. A legtöbb tudásfelfedezési módszer a következő lépéseket követi (a legmagasabb szinten):

Az adatgyűjtés és -feldolgozás hozzáférést igényel az adatokhoz, és számos velejárója van, beleértve az információ túlterhelését és az adathibákat. Az adatok összegyűjtése után azokat olyan formátumba kell átalakítani, amelyet mind az emberi, mind a számítógépes elemzők hatékonyan használhatnak. A kézi vagy számítógéppel létrehozott vizualizációs eszközök leképezhetők az adatokról, beleértve a hálózati diagramokat is. Számos algoritmus létezik az adatok elemzésének elősegítésére - Dijkstra algoritmusa , szélesség-első és mélység-első keresés .

A linkelemzés a csomópontok közötti kapcsolatok elemzésére koncentrál vizualizációs módszerekkel ( hálózati diagramok , asszociációs mátrix). Íme egy példa azokra a kapcsolatokra, amelyek feltérképezhetők a bűnügyi nyomozások során:

Kapcsolat / Hálózat	Adatforrások
1. Bizalom	Korábbi kapcsolattartás családban, környéken, iskolában, katonaságban, klubban vagy szervezetben. Nyilvános és bírósági nyilvántartások. Az adatok csak a gyanúsított szülőföldjén állnak rendelkezésre.
2. Feladat	Naplók és nyilvántartások telefonhívásokról, elektronikus levélről, csevegőszobákról, azonnali üzenetekről, webhelylátogatásokról. Utazási nyilvántartások. Emberi intelligencia: találkozók megfigyelése és közös rendezvényeken való részvétel.
3. Pénz és források	Bankszámla és pénzátutalási nyilvántartások. A hitelkártya használatának mintája és helye. Korábbi bírósági nyilvántartás. Emberi intelligencia: alternatív banki források, például Hawala látogatásainak megfigyelése .
4. Stratégia és célok	Webhelyek. Futárral szállított videók és titkosított lemezek. Utazási nyilvántartások. Emberi intelligencia: találkozók megfigyelése és közös rendezvényeken való részvétel.

A linkelemzést 3 elsődleges célra használják:

Találjon egyezést az ismert érdeklődési minták adataiban;
Keressen olyan rendellenességeket, ahol az ismert mintákat megsértik;
Fedezze fel az új érdeklődési mintákat (szociális háló elemzés, adatbányászat ).

Történelem

Klerks a linkelemző eszközöket 3 generációba sorolta. Az első generációt 1975-ben mutatták be Harper és Harris Anacpapa diagramjaként. Ez a módszer megköveteli, hogy egy tartományi szakértő vizsgálja felül az adatfájlokat, azonosítsa az asszociációkat egy asszociációs mátrix felépítésével, hozzon létre egy kapcsolattáblázatot a megjelenítéshez, és végül elemezze a hálózati diagramot az érdeklődési minták azonosításához. Ez a módszer kiterjedt tartományismeretet igényel, és rendkívül időigényes, ha hatalmas mennyiségű adatot vizsgál.

Egyesület Mátrix

Az asszociációs mátrix mellett a tevékenységi mátrix felhasználható cselekvésre alkalmas információk előállítására, amelyek gyakorlati értékkel bírnak és hasznosak a bűnüldözés számára. A tevékenység mátrix, ahogyan ez a kifejezés is utalhat, az emberek cselekvéseire és tevékenységeire összpontosít a helyekkel kapcsolatban. Míg az asszociációs mátrix az emberek, szervezetek és / vagy tulajdonságok közötti kapcsolatokra összpontosít. E két típusú mátrix megkülönböztetése, bár kisebb, mindazonáltal jelentős az elkészült vagy előállított elemzés kimenete szempontjából.

A második generációs eszközök automatikus grafikus alapú elemző eszközökből állnak, mint például az IBM i2 Analyst's Notebook, a Netmap, a ClueMaker és a Watson. Ezek az eszközök lehetőséget nyújtanak a linkdiagram felépítésének és frissítéseinek automatizálására, amint az asszociációs mátrix manuálisan elkészül, azonban a kapott diagramok és grafikonok elemzéséhez továbbra is szakértőre van szükség, aki kiterjedt tartományismerettel rendelkezik.

A linkanalízis eszközök harmadik generációja, mint például a DataWalk, lehetővé teszi az adatkészlet elemei közötti kapcsolatok automatikus vizualizálását, amelyek ezután további kutatások vagy manuális frissítések vásznaként szolgálhatnak.

Alkalmazások

Az FBI erőszakos bűncselekmény-visszatartó programja (ViCAP)
Iowa állam nemi bűncselekmény-elemző rendszere
Minnesota állam nemi bűncselekmény-elemző rendszere (MIN / SCAP)
Washington állam gyilkosság-nyomkövető rendszere (HITS)
New York-i állami gyilkosságok kivizsgálása és vezetése (HALT)
New Jersey-ben elkövetett emberölések értékelése és felmérése (HEAT)
Pennsylvania állam ATAC programja.
Erőszakos bűncselekmények összekapcsolásának elemző rendszere (ViCLAS)

Linkelemzéssel kapcsolatos kérdések

Információs túlterhelés

Az elektronikusan tárolt hatalmas mennyiségű adat és információ révén a felhasználók több, egymással nem összefüggő, elemzésre rendelkezésre álló információforrással szembesülnek. Adatelemzési technikákra van szükség az adatok hatékony és eredményes felhasználásához. Palshikar két kategóriába sorolja az adatelemzési technikákat - ( statisztikai modellek , idősor-elemzés , klaszterezés és osztályozás , algoritmusok illesztése az anomáliák felderítésére) és a mesterséges intelligencia (AI) technikákba (adatbányászat, szakértői rendszerek , mintafelismerés , gépi tanulási technikák , idegi hálózatok ).

A Bolton & Hand statisztikai adatelemzést felügyelt vagy felügyelet nélküli módszerként határoz meg. A felügyelt tanulási módszerek megkövetelik, hogy szabályokat határozzanak meg a rendszeren belül annak megállapítására, hogy mi várható vagy váratlan viselkedés. A felügyelet nélküli tanulási módszerek az adatokat összehasonlítják a normával, és kimutatják a statisztikai kiugró értékeket. A felügyelt tanulási módszerek korlátozottak a kezelhető forgatókönyvekben, mivel ez a módszer megköveteli, hogy a képzési szabályokat a korábbi minták alapján hozzák létre. A felügyelet nélküli tanulási módszerek szélesebb körű kérdések felderítését szolgálhatják, azonban magasabb hamis-pozitív arányt eredményezhetnek, ha a viselkedési norma nincs jól megalapozva vagy megértve.

Az adatoknak magában rejlő problémái vannak, beleértve az integritást (vagy hiányát) és a folyamatos változásokat. Az adatok tartalmazhatnak „hibákat a mulasztás és a megbízás miatt hibás összegyűjtés vagy kezelés miatt, és amikor az entitások aktívan próbálják megtéveszteni és / vagy elrejteni cselekedeteiket”. Sparrow a hiányosságot (a hiányzó adatok vagy linkek elkerülhetetlensége), a fuzzy határokat (szubjektivitás a belefoglalás eldöntésében) és a dinamikus változásokat (annak felismerése, hogy az adatok folyamatosan változnak) emeli ki az adatelemzés három elsődleges problémájaként.

Az adatok felhasználható formátumba történő átalakítása után nyílt textúrával és kereszthivatkozási problémák merülhetnek fel. A nyílt textúrát Waismann az elkerülhetetlen jelentésbizonytalanságként határozta meg, amikor az empirikus kifejezéseket különböző összefüggésekben használják. A kifejezések jelentésének bizonytalansága problémákat okoz, amikor több forrásból származó adatokat keresnek és hivatkoznak egymásra.

Az adatelemzési kérdések megoldásának elsődleges módszere a szakértői tartományi ismeretekre való támaszkodás . Ez egy nagyon időigényes és költséges módszer a linkelemzés elvégzésére, és saját problémái vannak. McGrath és mtsai. arra a következtetésre juthatunk, hogy a hálózati diagram elrendezése és bemutatása jelentős hatással van a felhasználó „felfogására a csoportok létezéséről a hálózatokban”. Még a szakterületek szakértőinek használata eltérő következtetéseket vonhat maga után, mivel az elemzés szubjektív lehet.

Ügyészség és bűnmegelőzés

A kapcsolatelemzési technikákat elsősorban a vádemelés során alkalmazták, mivel a történeti adatokat sokkal egyszerűbb áttekinteni minták alapján, mint a jövőbeni cselekvések előrejelzésével.

Krebs a támadások nyomán elérhetővé tett nyilvánosan elérhető adatok feltérképezésével demonstrálta a szeptember 11-i támadásokért felelős 19 gépeltérítővel társult terrorista hálózat társulási mátrixát és link-diagramját . Az utólagos és az emberekről, helyekről és tranzakciókról nyilvánosan elérhető információk előnyeivel együtt is egyértelmű, hogy hiányoznak az adatok.

Alternatívaként Picarelli azzal érvelt, hogy linkelemzési technikákat lehetett volna használni az Aum Shinrikyo hálózaton belüli tiltott tevékenységek azonosítására és potenciális megelőzésére . „Óvakodnunk kell a„ társulás által okozott bűntudattól ”. A terrorista kapcsolat nem bizonyítja a bűntudatot - de vizsgálatot indít. ” A valószínű ok , a magánélethez való jog és az egyesülési szabadság jogi fogalmai egyensúlyának megteremtése kihívást jelent a potenciálisan érzékeny adatok áttekintése során a még nem történt bűncselekmények vagy illegális tevékenységek megelőzése céljából.

Javasolt megoldások

A javasolt linkelemzési megoldásoknak négy kategóriája van:

Heurisztikus alapú
Sablon alapú
Hasonlóságon alapuló
Statisztikai

A heurisztikus alapú eszközök olyan döntési szabályokat használnak, amelyek strukturált adatok felhasználásával párhuzamosak a szakértői ismeretekkel. A sablon alapú eszközök a Natural Language Processing (NLP) technológiát használják fel a strukturálatlan adatok részleteinek kinyerésére , amelyek előre meghatározott sablonokhoz vannak igazítva. A hasonlóság-alapú megközelítések súlyozott pontozást alkalmaznak az attribútumok összehasonlításához és a lehetséges kapcsolatok azonosításához. A statisztikai megközelítések a lexikális statisztikák alapján azonosítják a lehetséges kapcsolatokat.

CrimeNet felfedező

JJ Xu és H. Chen keretet javasol az automatizált hálózatelemzéshez és vizualizációhoz, CrimeNet Explorer néven. Ez a keret a következő elemeket tartalmazza:

Hálózat létrehozása egy koncepciótér-megközelítésen keresztül, amely „ együttes előfordulási súlyt használ annak mérésére, hogy milyen gyakorisággal jelenik meg két szó vagy kifejezés ugyanabban a dokumentumban. Minél gyakrabban jelenik meg két szó vagy kifejezés együtt, annál valószínűbb, hogy összefüggenek ”.
Hálózati partíció, amely „hierarchikus fürtözéssel osztja fel a hálózatot a relációs erő alapján alcsoportokba”.
Strukturális elemzés „három centralitási méréssel (fok, közelség és közelség) az adott alcsoport központi tagjainak azonosítására. A CrimeNet Explorer Dijkstra legrövidebb útvonalú algoritmusát használva kiszámította az alcsoport összes többi csomópontjának távolságát és közelségét egyetlen csomóponttól.
Hálózatmegjelenítés Torgerson metrikus többdimenziós méretezés (MDS) algoritmusával.

Hivatkozások

Külső linkek

Bartolini, én; Ciaccia, P. Képzelet: Pontos képmegjegyzés a linkanalízis technikáival . CiteSeerX 10.1.1.63.2453 .
Linkelemzés és bűnözés - vizsga
Elink Schuurman MW, Srisaenpang S, Pinitsoontorn S, Bijleveld I, Vaeteewoothacharn K, Methapat C., The rapid village survey in tuberculosis control, Tuber Lung Dis. 1996 december; 77 (6): 549-54.
Gunhee, K., Faloutsos, C, Hebert, M, Az objektumkategóriák felügyelet nélküli modellezése a linkanalízis technikáival.
McGehee, R., hírszerzési jelentés.
Ressler, S., A szociális háló-elemzés mint a terrorizmus elleni küzdelem megközelítése: múltbeli, jelenlegi és jövőbeli kutatás.
RFFlow, Hogyan készítsünk linkelemzési diagramot.
IBM i2 elemző Notebook Premium
Silberschatz, A. (1996). "Mi teszi a mintákat érdekessé a tudásfelfedező rendszerekben". IEEE Transactions on Knowledge and Data Engineering . 8 (6): 970–974. CiteSeerX 10.1.1.53.2780 . doi : 10.1109 / 69.553165 .
Terrorista és lázadók elemzésének hírcsatornája (TR-LAF)
Workshop a linkelemzésről: A nagy hálózatok dinamikája és statikája (LinkKDD2006) 2006. augusztus 20
ClueMaker
Data Walk

Languages

In other projects