La reconnaissance d’entités nommées

une démarche prometteuse pour la détection automatisée de liens dans les dossiers d’enquête policière

Auteurs-es

DOI :

https://doi.org/10.26034/la.cfs.2023.3349

Mots-clés :

linguistique forensique, enquête, renseignement, traitement du langage naturel, reconnaissance d’entités nommées

Résumé

L’information produite par nos activités numériques est en constante augmentation. Ce flux d’informations en continu se traduit aussi par un accroissement important du nombre de données à traiter dans le cadre d’activités de renseignement et d’enquêtes policières. Afin de faciliter ce traitement de données, de nouvelles techniques ayant recours à l’intelligence artificielle s’offrent aux personnels policiers afin d’automatiser une partie de leur travail. Dans ce contexte, le présent article propose une démarche en six étapes permettant le déploiement d’une démarche structurée et d’un modèle algorithmique de reconnaissance d’entités nommées, spécifiquement adaptée pour l’analyse de documents d’enquête policière. En mettant l’accent plus spécifiquement sur le traitement de dossier d’infractions pour fraude, la démarche méthodologique à entreprendre pour avoir recours efficacement à ces nouvelles technologies d’analyse y est donc décrite en détail. De plus, l’évolution du rôle de l’analyste en renseignement criminel, l’acteur étant au cœur de l’intégration de ce type d’innovations, y est également discutée, tout en soulignant la pertinence de la reconnaissance d’entités nommées en contexte d’enquête policière.

Bibliographies de l'auteur-e

Maxime Bérubé, Université du Québec à Trois-Rivières

PhD, professeur en science forensique, Université du Québec à Trois-Rivières

Francis Fortin, Université de Montréal

PhD, professeur en criminologie, Université de Montréal

Olivier Péloquin, Université de Montréal

MSc, doctorant en criminologie, Université de Montréal

Références

Abeillé, A., Clément, L. et Toussenel, F. (2003). Building a treebank for French. Dans A. Abeillé (dir.), Treebanks (p. 165-187). Springer. https://doi.org/10.1007/978-94-010-0201-1_10

Alfred, R., Leong, L. C., On, C. K. et Anthony, P. (2014). Malay named entity recognition based on rule-based approach. International Journal of Machine Learning and Computing, 4(3), 300-306. https://doi.org/10.7763/IJMLC.2014.V4.428

Arulanandam, R. et Savarimuthu, B. T. R. (2014). Extracting crime information from online newspaper articles. Dans Second Australasian Web Conference. https://www.researchgate.net/publication/259932789_Extracting_crime_information_frWom_online_newspaper_articles

Asharef, M., Omar, N. et Albared, M. (2012). Arabic named entity recognition in crime documents. Journal of Theoretical and Applied Information Technology, 44(1), 1-6. http://jatit.org/volumes/Vol44No1/fourtyfourth_volume_1_2012.php

Baechler, S., Morelato, M., Roux, C., Margot, P. et Ribaux, O. (2020). Un modèle continu, non linéaire, et collaboratif de l’enquête. Criminologie, 53(2), 43-76. https://doi.org/10.7202/1074188ar

Banarescu, A. (2015). Detecting and preventing fraud with data analysis. Procedia economics and finance, 32(1), 1827-1836. https://doi.org/10.1016/S2212-5671(15)01485-9

Batura, C. (2021). Applicability of Link Analysis Software in Intelligence Criminal. Dans Scientia Moralitas Conference Proceedings. https://www.doi.org/10.5281/zenodo.4762537

Berlusconi, G., Calderoni, F., Parolini, N., Verani, M. et Piccardi, C. (2016). Link prediction in criminal networks: A tool for criminal intelligence analysis. PLoS ONE, 11(4), e0154244. https://doi.org/10.1371/journal.pone.0154244

Bollé, T. et Casey, E. (2018). Using computed similarity of distinctive digital traces to evaluate non-obvious links and repetitions in cyber-investigations. Digital Investigation, 24(Supplement - Proceedings of the Fifth Annual DFRWS Europe), S2-S9. https://doi.org/10.1016/j.diin.2018.01.002

Brun, O. (2018). Analyste. Dans H. Moutouh (dir.), Dictionnaire du renseignement (p. 54-56). Perrin. https://doi.org/10.3917/perri.mouto.2018.01.0054

Bsoul, Q., Salim, J. et Zakaria, L. Q. (2013). An intelligent document clustering approach to detect crime patterns. Procedia Technology, 11, 1181-1187. https://doi.org/10.1016/j.protcy.2013.12.311

Carnaz, G., Quaresma, P., Beires Nogueira, V., Antunes, M. et Fonseca Ferreira, N. N. M. (2019). A Review on Relations Extraction in Police Reports. Dans Á. Rocha, H. Adeli, L. P. Reis et S. Costanzo (dir.), New Knowledge in Information Systems and Technologies (p. 494-503). Springer. https://doi.org/10.1007/978-3-030-16181-1_47

Chau, M., Xu, J. J. et Chen, H. (2002). Extracting meaningful entities from police narrative reports. Proceedings of the 2002 annual national conference on digital government research, ICPS Proceedings(May), 1-5. https://www.diggov.org/library/library/pdf/chau2.pdf

Chen, H., Chung, W., Qin, Y., Chau, M., Xu, J. J., Wang, G., Zheng, R. et Atabakhsh, H. (2003). Crime data mining: An overview and case studies. Dans National Conference on Digital Government Research.

Chen, H., Chung, W., Xu, J. J., Wang, G., Qin, Y. et Chau, M. (2004). Crime data mining: A general framework and some examples. Computer, 34(4), 50-56. https://doi.org/10.1109/mc.2004.1297301

Chen, H., Schroeder, J., Hauck, R. V., Ridgeway, L., Atabakhsh, H., Gupta, H., Boarman, C., Rasmussen, K. et Clements, A. W. (2003). COPLINK Connect : information and knowledge management for law enforcement. Decision Support Systems, 34(3), 271-285. https://doi.org/10.1016/s0167-9236(02)00121-5

Cofan, S.-M. et Baloi, A.-M. (2017). Intelligence Analysis: A Key Tool for Modern Police Management - The Romanian Perspective. Dans J. Eterno, A. Verma, A. Mintie Das et D. K. Das (dir.), Global Issues in Contemporary Policing (p. 165-186). Routledge. https://www.taylorfrancis.com/chapters/edit/10.1201/9781315436975-18/intelligence-analysis-key-tool-modern-police-management%E2%80%94the-romanian-perspective-sorina-maria-cofan-aurel-mihail-b%C4%83loi

Das, P. et Das, A. K. (2017a). Crime Analysis against Women from Online Newspaper Reports and an Approach to apply it in Dynamic Environment. Dans International Conference on Big Data Analytics and Computational Intelligence, Chirala, India. https://doi.org/10.1109/icbdaci.2017.8070855

Das, P. et Das, A. K. (2017b). A two-stage approach of named-entity recognition for crime analysis. Dans 8th International Conference on Computing, Communication and Networking Technologies (ICCCNT), Delhi, India. https://doi.org/10.1109/icccnt.2017.8203949

De Pauw, E., Ponsaers, P., Bruggeman, W., Van der Vijver, K. et Deelman, P. (2011). Technology-led policing. Maklu Publishers. https://biblio.ugent.be/publication/2024677

Deering, T. et Corkill, J. (2017). The intelligence analyst: Attributes, knowledge, skills and characteristics. Journal of the Australian Institute of Professional Intelligence Officers, 25(1), 25-39. https://search.informit.org/doi/abs/10.3316/informit.972285516984070

Ejem, R. (2017). Relation extraction in police records [Master thesis, Charles University]. http://hdl.handle.net/20.500.11956/90996

Feldman, R. et Dagan, I. (1995). Knowledge discovery in textual databases (KDT). Dans First International Conference on Knowledge Discovery and Data Mining (KDD-95), Montreal, CAN. https://www.aaai.org/Papers/KDD/1995/KDD95-012.pdf

Feldman, R. et Sanger, J. (2007). The text mining handbook: advanced approaches in analyzing unstructured data. Cambridge University Press. https://doi.org/10.1017/CBO9780511546914

Gianola, L. (2020). Aspects textuels de la procédure judiciaire exploitée en analyse criminelle et perspectives pour son traitement automatique [PhD thesis, Université de Cergy-Pontoise]. https://tel.archives-ouvertes.fr/tel-02522680

Gianola, L. (2021). Traitement automatique des langues et linguistique de corpus pour la reconnaissance d’entités en analyse criminelle. Revue internationale de criminologie et de police technique et scientifique, 74(3), 363-382. https://www.polymedia.ch/fr/traitement-langues-linguistique-corpus-reconnaissance-entites-analyse-criminelle/

Grishman, R. (2015). Information extraction. Dans R. Mitkov (dir.), The Oxford Handbook of Computational Linguistics (2 ed.). Oxford University Press. https://doi.org/10.1093/oxfordhb/9780199276349.013.0030

Grossrieder, L., Albertetti, F., Stoffel, K. et Ribaux, O. (2013). Des données aux connaissances, un chemin difficile : réflexion sur la place du data mining en analyse criminelle. Revue internationale de criminologie et de police technique et scientifique, 66(1), 99-116. https://www.polymedia.ch/fr/des-donnees-aux-connaissances-un-chemin-difficile-reflexion-sur-la-place-du-data-mining-en-analyse-criminelle/

Hahm, Y., Park, J., Lim, K., Hwang, D. et Choi, K.-S. (2014). Named entity corpus construction using wikipedia and dbpedia ontology. Dans Ninth International Conference on Language Resources and Evaluation (LREC’14), Reykjavik, Iceland. http://www.lrec-conf.org/proceedings/lrec2014/pdf/688_Paper.pdf

Han, J., Kamber, M. et Pei, J. (2012). Data mining: concepts and techniques. Elsevier. https://doi.org/10.1016/C2009-0-61819-5

Harper, W. R. et Harris, D. H. (1975). The application of link analysis to police intelligence. Human Factors, 17(2), 157-164. https://doi.org/10.1177/001872087501700206

Hassani, H., Huang, X., Silva, E. S. et Ghodsi, M. (2016). A review of data mining applications in crime. Statistical Analysis and Data Mining, 9(3), 139-154. https://doi.org/10.1002/sam.11312

Hauck, R. V., Atabakhsh, H., Ongvasith, P., Gupta, H. et Chen, H. (2002). Using Coplink to analyze criminal-justice data. IEEE Computer, 35(3), 30-37. https://doi.org/10.1109/2.989927

Hipgrave, S. (2013). Smarter fraud investigations with big data analytics. Network Security, 2013(12), 7-9. https://doi.org/10.1016/S1353-4858(13)70135-1

Ide, N. et Véronis, J. (1998). Introduction to the special issue on word sense disambiguation: The state of the art. Computational Linguistics, 24(1), 1-40. https://doi.org/https://aclanthology.org/J98-1001.pdf

Inyaem, U., Meesad, P. et Haruechaiyasak, C. (2009). Named-Entity Techniques for Terrorism Event Extraction and Classification. Dans Eighth International Symposium on Natural Language Processing, Bangkok, Thaïland. https://ieeexplore.ieee.org/document/5340924

Jafari, O., Nagarkar, P., Thatte, B. et Ingram, C. (2020). SatelliteNER: An Effective Named Entity Recognition Model for the Satellite Domain. Dans 12th International Joint Conference on Knowledge Discovery, Knowledge Engineering and Knowledge Management (IC3K 2020). https://doi.org/10.5220/0010147401000107

Keay, S. et Kirby, S. (2018). The evolution of the police analyst and the influence of evidence-based policing. Policing: A Journal of Policy and Practice, 12(3), 265-276. https://doi.org/10.1093/police/pax065

Ku, C. H., Iriberri, A. et Leroy, G. (2008). Crime information extraction from police and witness narrative reports. Dans IEEE - International Conference on Technologies for Homeland Security, Boston. https://doi.org/10.1109/THS.2008.4534448

Manning, C., Surdeanu, M., Bauer, J., Finkel, J., Bethard, S. J. et McClosky, D. (2014). The Standford CoreNLP Natural Language Processing Toolkit. Dans 52nd Annual Meeting of the Association for Computational Linguistics: System Demonstrations. https://aclanthology.org/P14-5010

McCue, C. (2014). Data mining and predictive analysis: intelligence gathering and crime analysis. Butterworth-Heinemann. https://doi.org/10.1016/C2013-0-00434-3

McGuire, M. et Holt, T. (2017). The Routledge Handbook of Technology, Crime and Justice. Routledge. https://doi.org/10.4324/9781315743981

Merry, S. (2000). Crime analysis: Principles for analysing everyday serial crime. Dans D. V. Canter et L. J. Alison (dir.), Profiling property crimes (p. 307-328). Routledge. https://doi.org/10.4324/9781315189192

Milić-Frayling, N. (2005). Text processing and information retrieval. Dans A. Zanasi (dir.), Text Mining and its Applications to Intelligence, CRM and Knowledge Management (p. 1-45). WIT Press. https://doi.org/10.2495/978-1-85312-995-7/01

Munasinghe, M., Udeshini, S., Perera, H. et Weerasinghe, R. (2014). Criminal shortlisting and crime forecasting based on modus operandi. Dans 14th International Conference on Advances in ICT for Emerging Regions (ICTer), Colombo, Sri Lanka. https://ieeexplore.ieee.org/document/7083923

O’Connor, C. D. (2021). Thinking about police data: Analysts’ perceptions of data quality in Canadian policing. The Police Journal, 95(4), 637-656. https://doi.org/10.1177/0032258X211021461

Oatley, G. et Ewart, B. (2011). Data mining and crime analysis. Wiley Interdisciplinary Reviews: Data mining and knowledge discovery, 1(1), 147-153. https://doi.org/10.1002/widm.6

Osborne, D. A. (2001). Four position papers on the role of the crime analyst in policing. Unplublished MA Social Policy Dissertation. State University of New York, New York.

Petasis, G., Vichot, F., Wolinski, F., Paliouras, G., Karkaletsis, V. et Spyropoulos, C. D. (2001). Using Machine Learning to Maintain Rule-based Named-Entity Recognition and Classification Systems. Dans 39th Annual Meeting on Association for Computational Linguistics, Toulouse, FR. https://aclanthology.org/P01-1055.pdf

Piza, E. L. et Feng, S. Q. (2017). The current and potential role of crime analysts in evaluations of police interventions: Results from a survey of the International Association of Crime Analysts. Police Quarterly, 20(4), 339-366. https://doi.org/10.1177/1098611117697056

Plouffe, É. (2021, 22 janvier). Deux fois plus de victimes de fraude au Canada en 2020. Radio-Canada. https://ici.radio-canada.ca/nouvelle/1764924/fraude-centre-antifraude-grc-pandemie

Rossy, Q. (2011). Méthodes de visualisation en analyse criminelle : approche générale de conception des schémas relationnels et développement d’un catalogue de patterns [Université de Lausanne]. https://serval.unil.ch/resource/serval:BIB_1AC0D89CA5A4.P001/REF.pdf

Rossy, Q. (2016). La visualisation relationnelle au service de l’enquête criminelle. Dans R. Boivin et C. Morselli (dir.), Les réseaux criminels (p. 17-50). Presses de l’Université de Montréal. https://www.pum.umontreal.ca/catalogue/les-reseaux-criminels

Rossy, Q., Décary-Hétu, D., Delémont, O. et Mulone, M. (2018). The Routledge International Handbook of Forensic Intelligence and Criminology. Routledge. https://doi.org/10.4324/9781315541945

Rossy, Q., Ribaux, O., Boivin, R. et Fortin, F. (2019). Le traitement de l’information dans l’enquête criminelle. Dans M. Cusson, O. Ribaux, É. Blais et M. M. Raynaud (dir.), Nouveau traité de sécurité. Sécurité intérieure et sécurité urbaine (p. 428-446). Editions Hurtubise. https://editionshurtubise.com/livre/nouveau-traite-de-securite/

Schmitt, X., Kubler, S., Robert, J., Papadakis, M. et LeTraon, Y. (2019). A Replicable Comparison Study of NER Software: StanfordNLP, NLTK, OpenNLP, SpaCy, Gate. Dans Sixth International Conference on Social Networks Analysis, Management and Security (SNAMS). https://doi.org/10.1109/SNAMS.2019.8931850

Schraagen, M., Brinkhuis, M. et Bex, F. (2017). Evaluation of Named Entity Recognition in Dutch online complaints. Computational Linguistics in the Netherlands Journal, 7, 3-16. https://dspace.library.uu.nl/handle/1874/356185

Schroeder, J., Xu, J., Chen, H. et Chau, M. (2007). Automated criminal link analysis based on domain knowledge. Journal of the American Society for Information Science and Technology, 58(6), 842-855. https://doi.org/10.1002/asi.20552

spaCy. (2022). API: EntityRecognizer. https://spacy.io/api/entityrecognizer

Tan, A.-H. (1999). Text mining: The state of the art and the challenges. Dans PAKDD Workshop on Knowledge Discoverery from Advanced Databases, Beijing, China. https://www.researchgate.net/publication/2471634_Text_Mining_The_state_of_the_art_and_the_challenges

Vossen, P. (2002). WordNet, EuroWordNet and Global WordNet. Revue française de linguistique appliquée, VII, 27-38. https://doi.org/10.3917/rfla.071.0027

Westphal, C. (2008). Data Mining for Intelligence, Fraud & Criminal Detection: Advanced Analytics & Information Sharing Technologies. CRC Press. https://doi.org/10.1201/9781420067248

Wilks, Y. et Stevenson, M. (1996). The Grammar of Sense: Is word-sense tagging much more than part-of-speech tagging? (publication no CS-96-05). https://doi.org/10.48550/arXiv.cmp-lg/9607028

Xue, N., Bird, S., Klein, E. et Loper, E. (2011). Natural Language Processing with Python. Natural Language Engineering, 17(3), 419-424. https://doi.org/10.1017/S1351324910000306

Téléchargements

Publié-e

30.01.2023

Comment citer

Bérubé, M., Fortin, F., & Péloquin, O. (2023). La reconnaissance d’entités nommées: une démarche prometteuse pour la détection automatisée de liens dans les dossiers d’enquête policière. Criminologie, Forensique Et Sécurité, 1(1). https://doi.org/10.26034/la.cfs.2023.3349

Numéro

Rubrique

Articles réguliers

Catégories