Temporal Tagging
WhentheFact
WhenTheFact est un extracteur d’événements pour des textes juridiques qui identifie les événements, leur type, le sujet et la date associée. En outre, il génère une chronologie pour les jugement de la Cour européenne des droits de l’homme. La démo est disponible en ligne et l’article décrivant le travail, un corpus et d’autres approches du problème, a été accepté lors de la conférence JURIX2020.
Filtz, E., Navas-Loro, M., Santos, C., Polleres, A., Kirrane, Events Matter: Extraction of Events from Court Decisions. In: Serena Villata, Jakub Harašta, Petr Křemen (eds) Frontiers in Artificial Intelligence and Applications, vol 334. IOS Press. JURIX 2020. pp. 33 – 42. doi: 10.3233/FAIA200847.
Añotador et corpus Hourglass
Añotador est un marqueur temporel pour l’anglais et l’espagnol, capable de trouver et de normaliser des expressions temporelles telles que des dates, des durées, des heures et des expressions périodiques. Toutes les informations sont disponibles sur son site web et seront bientôt publiées dans un numéro spécial du Journal of Intelligent and Fuzzy Systems.
Navas-Loro, M., Rodríguez-Doncel, V. (2020). Annotador: a Temporal Tagger for Spanish. Journal of Intelligent & Fuzzy Systems 39 (2020) 1979-1991, (2) doi:10.3233/JIFS-179865.
TempCourt
TempCourt est le premier corpus de documents juridiques annotés avec des expressions temporelles. Il résulte d’une collaboration avec la Wirtschaftsuniversität Wien et sera prochainement publié dans la Knowledge Engineering Review. Plus d’informations sont disponibles sur son site web.
Navas-Loro, M., Filtz, E., Rodríguez-Doncel, V., Polleres, A., Kirrane, S. (2019). TempCourt: Evaluation of Temporal Taggers on a new Corpus of Court Decisions. The Knowledge Engineering Review 34 (2019) e24. doi.org/10.1017/S0269888919000195.
Analyse d’événements dans le domaine juridique
IEn collaboration avec Cristiana Santos, nous avons effectué une première analyse des événements dans le domaine juridique. Ce travail a été présenté à TeReCom 2018 et les slides et la vidéo sont disponibles.
Navas-Loro, M., Santos, C. (2018). Events in the legal domain: first impressions. In: Proceedings of the 2nd Workshop on Technologies for Regulatory Compliance co-located with the 31st International Conference on Legal Knowledge and Information Systems (JURIX 2018), Groningen, The Netherlands, December 12, 2018. Pp. 45–57.
LawORDate
LawORDate est un service web qui remplace temporairement les références légales dans un texte espagnol pour faciliter son annotation temporelle. La présentation utilisée dans TeReCom 2017 est disponible et le service peut être trouvé ici.
Navas-Loro, M. (2017). LawORDate: a Service for Distinguishing Legal References from Temporal Expressions. Proceedings of TeReCom 2017: Workshop on Technologies for Regulatory Compliance at JURIX (TeReCom 2017)
ContractFrames
ContractFrames est un framework crée avec le National Institute of Informatics de Tokyo afin de détecter les événements liés aux contrats dans les textes anglais. Le logiciel est disponible dans GitHub, et le data model peut être trouvé ici.
Navas-Loro, M., Satoh, K., Rodríguez-Doncel, V.. ContractFrames: Bridging the Gap Between Natural Language and Logics in Contract Law. K. Kojima et al. (Eds.): JSAI-isAI 2018, LNAI 11717, pp. 1–14, 2019. https://doi.org/10.1007/978-3-030-31605-1_9
Sentiment Analysis
État de l’art en corpus pour Sentiment Anlysis en espagnol
En 2019, nous avons publié l’état de la technique sur les corpus disponibles en espagnol pour Sentiment Analysis. Nous avons analysé 20 ressources différentes provenant de domaines différents.
Navas-Loro, M., Rodríguez-Doncel, V. (2019). “Spanish corpora for sentiment analysis: a survey”. In: Language Resources and Evaluation. issn: 1574-0218. doi: 10.1007/s10579-019-09470-8.
Corpus SAB/MAS
Encadré dans le domaine de l’analyse des émotions, on a construit un corpus de tweets en espagnol exprimant des émotions vers des produits et des marques concrètes. Ce corpus, appelé Spanish Corpus for Sentiment Analysis towards Brands (SAB), est classé suivant une taxonomie de quatre émotions et de leurs opposés directs, ainsi qu’une neutre. Il peut être trouvé publié sous la forme de Linked Data ici; aussi un vocabulaire a été developé. Il a ensuite été étendu dans le corpus MAS, où nous avons ajouté pour chaque tweet les catégories Marketing Mix (avec les quatre Ps en marketing: Prix, Place, Produit et Promotion) et Purchase Funnel (où nous indiquent à quel point de l’achat l’opinion est donnée) ).
Navas-Loro, M., Rodríguez-Doncel, V., Santana I., Fernández-Izquierdo, A., Sánchez, A., MAS: A Corpus of Tweets for Marketing in Spanish – The Semantic Web: ESWC 2018 Satellite Events, September 12-16, 2017. Ed. by Aldo Gangemi, Anna Lisa Gentile, Andrea Giovanni Nuzzolese, Sebastian Rudolph, Maria Maleshkova, Heiko Paulheim, Jeff Z Pan and Mehwish Alam. Cham: Springer International Publishing, pp. 363–375. isbn: 978-3-319-98192-5. doi: 10.1007/978-3-319-98192-5_53
Navas-Loro, M., Rodríguez-Doncel, V. , Santana I., Sánchez, A., Spanish Corpus for Sentiment Analysis towards Brands – Proceedings of Speech and Computer: 19th International Conference, SPECOM 2017, Hatfield, UK, September 12-16, 2017. Ed. by Alexey Karpov, Rodmonga Potapova, and Iosif Mporas. Cham: Springer International Publishing, pp. 680–689. isbn: 978-3-319-66429-3. doi: 10.1007/978-3-319-66429-3_68
Ressources: SAB vocabulary SAB corpus MAS corpus