Einbrechern einen Schritt voraus

Eine neue Machine-Learning-Methode von ETH-Wissenschaftlern erm?glicht Einbruchsprognosen auch in dünn besiedelten Gebieten.

Einbrüche
Verschiedene Variablen wie Tageszeit, Ort, Bev?lkerungsdichte helfen, eine bestimmte Land-Parzelle zu einer bestimmten Zeit als Einbruchsgef?hrdet oder nicht einzusch?tzen. (Bild: ETH Zürich)

Eingebrochen wird nicht überall und jederzeit. Es gibt Gemeinden, Quartiere und Strassen sowie Jahres- und Tageszeiten mit niedrigerem und solche mit h?herem Risiko. Aus Einbruchsstatistiken k?nnen mit Machine-Learning Muster erkannt und das Risiko für einen Einbruch an einem bestimmten Ort vorausgesagt werden. Computerprogramme k?nnen der Polizei also helfen, für jeden Tag sogenannte Hotspots – Orte mit besonders hohem Einbruchsrisiko – zu erkennen und Patrouillen entsprechend einzusetzen.

Ungleichgewicht erschwert das Lernen

Bisher funktionieren solche Warnsysteme aber nur in dicht besiedelten Gebieten, also vor allem in St?dten. Denn um Muster erkennen zu k?nnen, brauchen die Computerprogramme genügend Daten. In l?ndlichen, dünn besiedelten Gebieten sind kriminelle Vorf?lle seltener. In der Statistik spricht man von einem ?Klassenungleichgewicht?. Konkret heisst das: Auf einen Strassenabschnitt mit Einbruch kommen einige hundert oder sogar 1000 ohne.

Algorithmen arbeiten parallel

Cristina Kadar ist Informatikerin und Doktorandin am Departement für Management, Technologie und ?konomie. Sie hat eine Methode entwickelt, die trotz ungleich verteilten Daten zuverl?ssige Prognosen machen kann. Ihre Arbeit stellte sie soeben in der Fachzeitschrift externe Seite Decision Support Systems vor. Die Forscherin hat mit einem grossen Datensatz von Einbrüchen im Kanton Aargau zahlreiche Machine-Learning-Methoden getestet, miteinander kombiniert und die Trefferraten verglichen. Am treffsichersten erwies sich eine Methode, welche die Gruppenintelligenz nutzt und Analysen verschiedener Algorithmen kombiniert.

Beim maschinellen Lernen trainiert sich ein Algorithmus anhand von grossen Datens?tzen selber, Daten richtig zu klassifizieren. Im aktuellen Beispiel lernt er aus Variablen wie Tageszeit, Ort, Bev?lkerungsdichte und vielem mehr, eine bestimmte Land-Parzelle zu einer bestimmten Zeit als Einbruchsgef?hrdet oder nicht einzuordnen.

Die Herausforderung bestand darin, die Klassifikations-Algorithmen trotz der geringen Anzahl von Einbruchsf?llen im Datensatz trainieren zu k?nnen. Kadar hat dazu den Datensatz bearbeitet: Per Zufallsprinzip wurden Einheiten ohne Einbrüche entfernt, bis sich Einheiten mit und solche ohne Einbrüche die Waage hielten. Diese statistische Methode nennt sich ?Random Undersampling?. Mit diesem reduzierten Datensatz trainierte Kadar parallel zahlreiche Klassifikationsalgorithmen. Deren aggregierte Vorhersagen ergaben die Einbruchsprognose. Als Daten-Einheit verwendete Kadar Parzellen von 200 mal 200 Metern an einem bestimmten Tag.

W?hrend herk?mmliche Warnsysteme vor allem Einbruchsdaten verwenden, fütterte Kadar die Klassifikations-Algorithmen zus?tzlich mit unpers?nlichen aggregierten Bev?lkerungsdaten, zum Beispiel zur Bev?lkerungsdichte, zur Altersstruktur, zur Art der Bebauung, zur Infrastruktur (Vorhandensein von Schulen, Polizeiposten, Spit?lern, Strassen), zum N?he von Landesgrenzen oder mit zeitlichen Angaben wie den Wochentagen, Feiertagen, des Tageslichtes und sogar der Mondphase.

Trefferquote besser als in St?dten

Mit der neuen Methode konnte Kadar die Trefferquote gegenüber herk?mmlichen Methoden deutlich verbessern. Sie liess den Computer mit ihrer Methode voraussagen, wo auf dem Kantonsgebiet sich wahrscheinlich Einbrüche ereignen werden (Hotspots). Die ?berprüfung zeigte: rund 60 Prozent der tats?chlichen Einbrüche wurden in den prognostizierten Hotspots verübt. Zum Vergleich: Wurden die Hotspots mit der herk?mmlichen von der Polizei verwendeten Methode vorausgesagt, fanden nur 53 Prozent der tats?chlichen Einbrüche in der prognostizierten Region statt. ?Die Methode erzielt mit ungleich verteilten Daten mindestens gleich gute und zum Teil bessere Trefferquoten als herk?mmliche Methoden in st?dtischen Gebieten, wo die Daten dichter sind und zudem gleichm?ssiger verteilt?, sagt Kadar.

Nützlich sind diese Erkenntnisse in erster Linie für die Polizei. Mit der Methode lassen sich auch in weniger dicht besiedelten Gebieten Regionen und Zeiten mit einem erh?hten Einbruchsrisiko voraussagen. Denkbar w?re aber auch, die Methode für die Vorhersage von anderen Risiken zu nutzen: Gesundheitsrisiken etwa oder die Wahrscheinlichkeit für Ambulanz-Notrufe. Auch die Immobilien-Branche k?nnte die Methode anwenden, um damit die Preisentwicklung von Immobilien anhand von r?umlichen Faktoren zu prognostizieren.

Literaturhinweis

Kadar C, Maculan R, Feuerriegel S: Public decision support for low population density areas: An imbalance-aware hyper-ensemble for spatio-temporal crime prediction. Decision Support Systems, 2019, doi: externe Seite 10.1016/j.dss.2019.03.001

JavaScript wurde auf Ihrem Browser deaktiviert