La reconnaissance d’entités nommées
une démarche prometteuse pour la détection automatisée de liens dans les dossiers d’enquête policière
DOI :
https://doi.org/10.26034/la.cfs.2023.3349Mots-clés :
linguistique forensique, enquête, renseignement, traitement du langage naturel, reconnaissance d’entités nomméesRésumé
L’information produite par nos activités numériques est en constante augmentation. Ce flux d’informations en continu se traduit aussi par un accroissement important du nombre de données à traiter dans le cadre d’activités de renseignement et d’enquêtes policières. Afin de faciliter ce traitement de données, de nouvelles techniques ayant recours à l’intelligence artificielle s’offrent aux personnels policiers afin d’automatiser une partie de leur travail. Dans ce contexte, le présent article propose une démarche en six étapes permettant le déploiement d’une démarche structurée et d’un modèle algorithmique de reconnaissance d’entités nommées, spécifiquement adaptée pour l’analyse de documents d’enquête policière. En mettant l’accent plus spécifiquement sur le traitement de dossier d’infractions pour fraude, la démarche méthodologique à entreprendre pour avoir recours efficacement à ces nouvelles technologies d’analyse y est donc décrite en détail. De plus, l’évolution du rôle de l’analyste en renseignement criminel, l’acteur étant au cœur de l’intégration de ce type d’innovations, y est également discutée, tout en soulignant la pertinence de la reconnaissance d’entités nommées en contexte d’enquête policière.
Références
Abeillé, A., Clément, L. et Toussenel, F. (2003). Building a treebank for French. Dans A. Abeillé (dir.), Treebanks (p. 165-187). Springer. https://doi.org/10.1007/978-94-010-0201-1_10
Alfred, R., Leong, L. C., On, C. K. et Anthony, P. (2014). Malay named entity recognition based on rule-based approach. International Journal of Machine Learning and Computing, 4(3), 300-306. https://doi.org/10.7763/IJMLC.2014.V4.428
Arulanandam, R. et Savarimuthu, B. T. R. (2014). Extracting crime information from online newspaper articles. Dans Second Australasian Web Conference. https://www.researchgate.net/publication/259932789_Extracting_crime_information_frWom_online_newspaper_articles
Asharef, M., Omar, N. et Albared, M. (2012). Arabic named entity recognition in crime documents. Journal of Theoretical and Applied Information Technology, 44(1), 1-6. http://jatit.org/volumes/Vol44No1/fourtyfourth_volume_1_2012.php
Baechler, S., Morelato, M., Roux, C., Margot, P. et Ribaux, O. (2020). Un modèle continu, non linéaire, et collaboratif de l’enquête. Criminologie, 53(2), 43-76. https://doi.org/10.7202/1074188ar
Banarescu, A. (2015). Detecting and preventing fraud with data analysis. Procedia economics and finance, 32(1), 1827-1836. https://doi.org/10.1016/S2212-5671(15)01485-9
Batura, C. (2021). Applicability of Link Analysis Software in Intelligence Criminal. Dans Scientia Moralitas Conference Proceedings. https://www.doi.org/10.5281/zenodo.4762537
Berlusconi, G., Calderoni, F., Parolini, N., Verani, M. et Piccardi, C. (2016). Link prediction in criminal networks: A tool for criminal intelligence analysis. PLoS ONE, 11(4), e0154244. https://doi.org/10.1371/journal.pone.0154244
Bollé, T. et Casey, E. (2018). Using computed similarity of distinctive digital traces to evaluate non-obvious links and repetitions in cyber-investigations. Digital Investigation, 24(Supplement - Proceedings of the Fifth Annual DFRWS Europe), S2-S9. https://doi.org/10.1016/j.diin.2018.01.002
Brun, O. (2018). Analyste. Dans H. Moutouh (dir.), Dictionnaire du renseignement (p. 54-56). Perrin. https://doi.org/10.3917/perri.mouto.2018.01.0054
Bsoul, Q., Salim, J. et Zakaria, L. Q. (2013). An intelligent document clustering approach to detect crime patterns. Procedia Technology, 11, 1181-1187. https://doi.org/10.1016/j.protcy.2013.12.311
Carnaz, G., Quaresma, P., Beires Nogueira, V., Antunes, M. et Fonseca Ferreira, N. N. M. (2019). A Review on Relations Extraction in Police Reports. Dans Á. Rocha, H. Adeli, L. P. Reis et S. Costanzo (dir.), New Knowledge in Information Systems and Technologies (p. 494-503). Springer. https://doi.org/10.1007/978-3-030-16181-1_47
Chau, M., Xu, J. J. et Chen, H. (2002). Extracting meaningful entities from police narrative reports. Proceedings of the 2002 annual national conference on digital government research, ICPS Proceedings(May), 1-5. https://www.diggov.org/library/library/pdf/chau2.pdf
Chen, H., Chung, W., Qin, Y., Chau, M., Xu, J. J., Wang, G., Zheng, R. et Atabakhsh, H. (2003). Crime data mining: An overview and case studies. Dans National Conference on Digital Government Research.
Chen, H., Chung, W., Xu, J. J., Wang, G., Qin, Y. et Chau, M. (2004). Crime data mining: A general framework and some examples. Computer, 34(4), 50-56. https://doi.org/10.1109/mc.2004.1297301
Chen, H., Schroeder, J., Hauck, R. V., Ridgeway, L., Atabakhsh, H., Gupta, H., Boarman, C., Rasmussen, K. et Clements, A. W. (2003). COPLINK Connect : information and knowledge management for law enforcement. Decision Support Systems, 34(3), 271-285. https://doi.org/10.1016/s0167-9236(02)00121-5
Cofan, S.-M. et Baloi, A.-M. (2017). Intelligence Analysis: A Key Tool for Modern Police Management - The Romanian Perspective. Dans J. Eterno, A. Verma, A. Mintie Das et D. K. Das (dir.), Global Issues in Contemporary Policing (p. 165-186). Routledge. https://www.taylorfrancis.com/chapters/edit/10.1201/9781315436975-18/intelligence-analysis-key-tool-modern-police-management%E2%80%94the-romanian-perspective-sorina-maria-cofan-aurel-mihail-b%C4%83loi
Das, P. et Das, A. K. (2017a). Crime Analysis against Women from Online Newspaper Reports and an Approach to apply it in Dynamic Environment. Dans International Conference on Big Data Analytics and Computational Intelligence, Chirala, India. https://doi.org/10.1109/icbdaci.2017.8070855
Das, P. et Das, A. K. (2017b). A two-stage approach of named-entity recognition for crime analysis. Dans 8th International Conference on Computing, Communication and Networking Technologies (ICCCNT), Delhi, India. https://doi.org/10.1109/icccnt.2017.8203949
De Pauw, E., Ponsaers, P., Bruggeman, W., Van der Vijver, K. et Deelman, P. (2011). Technology-led policing. Maklu Publishers. https://biblio.ugent.be/publication/2024677
Deering, T. et Corkill, J. (2017). The intelligence analyst: Attributes, knowledge, skills and characteristics. Journal of the Australian Institute of Professional Intelligence Officers, 25(1), 25-39. https://search.informit.org/doi/abs/10.3316/informit.972285516984070
Ejem, R. (2017). Relation extraction in police records [Master thesis, Charles University]. http://hdl.handle.net/20.500.11956/90996
Feldman, R. et Dagan, I. (1995). Knowledge discovery in textual databases (KDT). Dans First International Conference on Knowledge Discovery and Data Mining (KDD-95), Montreal, CAN. https://www.aaai.org/Papers/KDD/1995/KDD95-012.pdf
Feldman, R. et Sanger, J. (2007). The text mining handbook: advanced approaches in analyzing unstructured data. Cambridge University Press. https://doi.org/10.1017/CBO9780511546914
Gianola, L. (2020). Aspects textuels de la procédure judiciaire exploitée en analyse criminelle et perspectives pour son traitement automatique [PhD thesis, Université de Cergy-Pontoise]. https://tel.archives-ouvertes.fr/tel-02522680
Gianola, L. (2021). Traitement automatique des langues et linguistique de corpus pour la reconnaissance d’entités en analyse criminelle. Revue internationale de criminologie et de police technique et scientifique, 74(3), 363-382. https://www.polymedia.ch/fr/traitement-langues-linguistique-corpus-reconnaissance-entites-analyse-criminelle/
Grishman, R. (2015). Information extraction. Dans R. Mitkov (dir.), The Oxford Handbook of Computational Linguistics (2 ed.). Oxford University Press. https://doi.org/10.1093/oxfordhb/9780199276349.013.0030
Grossrieder, L., Albertetti, F., Stoffel, K. et Ribaux, O. (2013). Des données aux connaissances, un chemin difficile : réflexion sur la place du data mining en analyse criminelle. Revue internationale de criminologie et de police technique et scientifique, 66(1), 99-116. https://www.polymedia.ch/fr/des-donnees-aux-connaissances-un-chemin-difficile-reflexion-sur-la-place-du-data-mining-en-analyse-criminelle/
Hahm, Y., Park, J., Lim, K., Hwang, D. et Choi, K.-S. (2014). Named entity corpus construction using wikipedia and dbpedia ontology. Dans Ninth International Conference on Language Resources and Evaluation (LREC’14), Reykjavik, Iceland. http://www.lrec-conf.org/proceedings/lrec2014/pdf/688_Paper.pdf
Han, J., Kamber, M. et Pei, J. (2012). Data mining: concepts and techniques. Elsevier. https://doi.org/10.1016/C2009-0-61819-5
Harper, W. R. et Harris, D. H. (1975). The application of link analysis to police intelligence. Human Factors, 17(2), 157-164. https://doi.org/10.1177/001872087501700206
Hassani, H., Huang, X., Silva, E. S. et Ghodsi, M. (2016). A review of data mining applications in crime. Statistical Analysis and Data Mining, 9(3), 139-154. https://doi.org/10.1002/sam.11312
Hauck, R. V., Atabakhsh, H., Ongvasith, P., Gupta, H. et Chen, H. (2002). Using Coplink to analyze criminal-justice data. IEEE Computer, 35(3), 30-37. https://doi.org/10.1109/2.989927
Hipgrave, S. (2013). Smarter fraud investigations with big data analytics. Network Security, 2013(12), 7-9. https://doi.org/10.1016/S1353-4858(13)70135-1
Ide, N. et Véronis, J. (1998). Introduction to the special issue on word sense disambiguation: The state of the art. Computational Linguistics, 24(1), 1-40. https://doi.org/https://aclanthology.org/J98-1001.pdf
Inyaem, U., Meesad, P. et Haruechaiyasak, C. (2009). Named-Entity Techniques for Terrorism Event Extraction and Classification. Dans Eighth International Symposium on Natural Language Processing, Bangkok, Thaïland. https://ieeexplore.ieee.org/document/5340924
Jafari, O., Nagarkar, P., Thatte, B. et Ingram, C. (2020). SatelliteNER: An Effective Named Entity Recognition Model for the Satellite Domain. Dans 12th International Joint Conference on Knowledge Discovery, Knowledge Engineering and Knowledge Management (IC3K 2020). https://doi.org/10.5220/0010147401000107
Keay, S. et Kirby, S. (2018). The evolution of the police analyst and the influence of evidence-based policing. Policing: A Journal of Policy and Practice, 12(3), 265-276. https://doi.org/10.1093/police/pax065
Ku, C. H., Iriberri, A. et Leroy, G. (2008). Crime information extraction from police and witness narrative reports. Dans IEEE - International Conference on Technologies for Homeland Security, Boston. https://doi.org/10.1109/THS.2008.4534448
Manning, C., Surdeanu, M., Bauer, J., Finkel, J., Bethard, S. J. et McClosky, D. (2014). The Standford CoreNLP Natural Language Processing Toolkit. Dans 52nd Annual Meeting of the Association for Computational Linguistics: System Demonstrations. https://aclanthology.org/P14-5010
McCue, C. (2014). Data mining and predictive analysis: intelligence gathering and crime analysis. Butterworth-Heinemann. https://doi.org/10.1016/C2013-0-00434-3
McGuire, M. et Holt, T. (2017). The Routledge Handbook of Technology, Crime and Justice. Routledge. https://doi.org/10.4324/9781315743981
Merry, S. (2000). Crime analysis: Principles for analysing everyday serial crime. Dans D. V. Canter et L. J. Alison (dir.), Profiling property crimes (p. 307-328). Routledge. https://doi.org/10.4324/9781315189192
Milić-Frayling, N. (2005). Text processing and information retrieval. Dans A. Zanasi (dir.), Text Mining and its Applications to Intelligence, CRM and Knowledge Management (p. 1-45). WIT Press. https://doi.org/10.2495/978-1-85312-995-7/01
Munasinghe, M., Udeshini, S., Perera, H. et Weerasinghe, R. (2014). Criminal shortlisting and crime forecasting based on modus operandi. Dans 14th International Conference on Advances in ICT for Emerging Regions (ICTer), Colombo, Sri Lanka. https://ieeexplore.ieee.org/document/7083923
O’Connor, C. D. (2021). Thinking about police data: Analysts’ perceptions of data quality in Canadian policing. The Police Journal, 95(4), 637-656. https://doi.org/10.1177/0032258X211021461
Oatley, G. et Ewart, B. (2011). Data mining and crime analysis. Wiley Interdisciplinary Reviews: Data mining and knowledge discovery, 1(1), 147-153. https://doi.org/10.1002/widm.6
Osborne, D. A. (2001). Four position papers on the role of the crime analyst in policing. Unplublished MA Social Policy Dissertation. State University of New York, New York.
Petasis, G., Vichot, F., Wolinski, F., Paliouras, G., Karkaletsis, V. et Spyropoulos, C. D. (2001). Using Machine Learning to Maintain Rule-based Named-Entity Recognition and Classification Systems. Dans 39th Annual Meeting on Association for Computational Linguistics, Toulouse, FR. https://aclanthology.org/P01-1055.pdf
Piza, E. L. et Feng, S. Q. (2017). The current and potential role of crime analysts in evaluations of police interventions: Results from a survey of the International Association of Crime Analysts. Police Quarterly, 20(4), 339-366. https://doi.org/10.1177/1098611117697056
Plouffe, É. (2021, 22 janvier). Deux fois plus de victimes de fraude au Canada en 2020. Radio-Canada. https://ici.radio-canada.ca/nouvelle/1764924/fraude-centre-antifraude-grc-pandemie
Rossy, Q. (2011). Méthodes de visualisation en analyse criminelle : approche générale de conception des schémas relationnels et développement d’un catalogue de patterns [Université de Lausanne]. https://serval.unil.ch/resource/serval:BIB_1AC0D89CA5A4.P001/REF.pdf
Rossy, Q. (2016). La visualisation relationnelle au service de l’enquête criminelle. Dans R. Boivin et C. Morselli (dir.), Les réseaux criminels (p. 17-50). Presses de l’Université de Montréal. https://www.pum.umontreal.ca/catalogue/les-reseaux-criminels
Rossy, Q., Décary-Hétu, D., Delémont, O. et Mulone, M. (2018). The Routledge International Handbook of Forensic Intelligence and Criminology. Routledge. https://doi.org/10.4324/9781315541945
Rossy, Q., Ribaux, O., Boivin, R. et Fortin, F. (2019). Le traitement de l’information dans l’enquête criminelle. Dans M. Cusson, O. Ribaux, É. Blais et M. M. Raynaud (dir.), Nouveau traité de sécurité. Sécurité intérieure et sécurité urbaine (p. 428-446). Editions Hurtubise. https://editionshurtubise.com/livre/nouveau-traite-de-securite/
Schmitt, X., Kubler, S., Robert, J., Papadakis, M. et LeTraon, Y. (2019). A Replicable Comparison Study of NER Software: StanfordNLP, NLTK, OpenNLP, SpaCy, Gate. Dans Sixth International Conference on Social Networks Analysis, Management and Security (SNAMS). https://doi.org/10.1109/SNAMS.2019.8931850
Schraagen, M., Brinkhuis, M. et Bex, F. (2017). Evaluation of Named Entity Recognition in Dutch online complaints. Computational Linguistics in the Netherlands Journal, 7, 3-16. https://dspace.library.uu.nl/handle/1874/356185
Schroeder, J., Xu, J., Chen, H. et Chau, M. (2007). Automated criminal link analysis based on domain knowledge. Journal of the American Society for Information Science and Technology, 58(6), 842-855. https://doi.org/10.1002/asi.20552
spaCy. (2022). API: EntityRecognizer. https://spacy.io/api/entityrecognizer
Tan, A.-H. (1999). Text mining: The state of the art and the challenges. Dans PAKDD Workshop on Knowledge Discoverery from Advanced Databases, Beijing, China. https://www.researchgate.net/publication/2471634_Text_Mining_The_state_of_the_art_and_the_challenges
Vossen, P. (2002). WordNet, EuroWordNet and Global WordNet. Revue française de linguistique appliquée, VII, 27-38. https://doi.org/10.3917/rfla.071.0027
Westphal, C. (2008). Data Mining for Intelligence, Fraud & Criminal Detection: Advanced Analytics & Information Sharing Technologies. CRC Press. https://doi.org/10.1201/9781420067248
Wilks, Y. et Stevenson, M. (1996). The Grammar of Sense: Is word-sense tagging much more than part-of-speech tagging? (publication no CS-96-05). https://doi.org/10.48550/arXiv.cmp-lg/9607028
Xue, N., Bird, S., Klein, E. et Loper, E. (2011). Natural Language Processing with Python. Natural Language Engineering, 17(3), 419-424. https://doi.org/10.1017/S1351324910000306
Téléchargements
Publié-e
Comment citer
Licence
(c) Tous droits réservés Maxime Bérubé, Francis Fortin, et Olivier Péloquin 2023
Cette œuvre est sous licence Creative Commons Attribution 4.0 International.
Attribution — Vous devez créditer l'Œuvre, intégrer un lien vers la licence et indiquer si des modifications ont été effectuées à l'Œuvre. Vous devez indiquer ces informations par tous les moyens raisonnables, sans toutefois suggérer que l'Offrant vous soutient ou soutient la façon dont vous avez utilisé son Œuvre.
Pas de restrictions complémentaires — Vous n'êtes pas autorisé à appliquer des conditions légales ou des mesures techniques qui restreindraient légalement autrui à utiliser l'Œuvre dans les conditions décrites par la licence.
Les termes de la licence ne s'appliquent pas aux titulaires des droits d'auteur. La licence s'applique aux lecteur.trice.s et à la revue.