Temporal Tagging
WhentheFact
WhenTheFact es un extractor de eventos para textos legales. Identifica los eventos, su tipo, el sujeto y la fecha asociada. Adicionalmente, genera una línea temporale para sentencias del Tribunal Europeo de Derechos Humanos. La demo está disponible online, y el paper describiendo el trabajo, un corpus y otras aproximaciones al problema se aceptó en la conferencia JURIX2020.
Filtz, E., Navas-Loro, M., Santos, C., Polleres, A., Kirrane, Events Matter: Extraction of Events from Court Decisions. In: Serena Villata, Jakub Harašta, Petr Křemen (eds) Frontiers in Artificial Intelligence and Applications, vol 334. IOS Press. JURIX 2020. pp. 33 – 42. doi: 10.3233/FAIA200847.
Añotador y corpus Hourglass
Añotador es un sistema de anotación temporal para inglés y español capaz de encontrar y normalizar expresiones temporales como fechas, duraciones, horas y fechas periódicas. Toda la información está disponible en la web de la herramienta, próximamente se ha publicado en un Special Issue de Journal of Intelligent and Fuzzy Systems.
Navas-Loro, M., Rodríguez-Doncel, V. (2020). Annotador: a Temporal Tagger for Spanish. Journal of Intelligent & Fuzzy Systems 39 (2020) 1979-1991, (2) doi:10.3233/JIFS-179865.
TempCourt
TempCourt es el primer corpus de documentos del dominio legal anotado con expresiones temporales. Ha sido realizado en colaboración con la Wirtschaftsuniversität Wien y se ha publicado en la revista Knowledge Engineering Review. Se puede encontrar más información en su web.
Navas-Loro, M., Filtz, E., Rodríguez-Doncel, V., Polleres, A., Kirrane, S. (2019). TempCourt: Evaluation of Temporal Taggers on a new Corpus of Court Decisions. The Knowledge Engineering Review 34 (2019) e24. doi.org/10.1017/S0269888919000195.
Análisis de eventos en el dominio legal
Junto con Cristiana Santos, realizamos un primer análisis de los eventos en el dominio legal. Este trabajo se presentó en TeReCom 2018, y tanto las slides como el video están disponibles.
Navas-Loro, M., Santos, C. (2018). Events in the legal domain: first impressions. In: Proceedings of the 2nd Workshop on Technologies for Regulatory Compliance co-located with the 31st International Conference on Legal Knowledge and Information Systems (JURIX 2018), Groningen, The Netherlands, December 12, 2018. Pp. 45–57.
LawORDate
LawORDate es un webservice que reemplaza temporalmente las referencias legales de un texto en español para facilitar la anotación temporal del mismo. Está disponible la presentación utlizada en TeReCom 2017 y puede accederse al servicio desde el siguiente enlace.
Navas-Loro, M. (2017). LawORDate: a Service for Distinguishing Legal References from Temporal Expressions. Proceedings of TeReCom 2017: Workshop on Technologies for Regulatory Compliance at JURIX (TeReCom 2017)
ContractFrames
ContractFrames es un framework creado en colaboración con el National Institute of Informatics de Tokio para detectar eventos relacionados con contratos en textos en inglés. El software está disponible en GitHub, y el modelo de datos aquí.
Navas-Loro, M., Satoh, K., Rodríguez-Doncel, V.. ContractFrames: Bridging the Gap Between Natural Language and Logics in Contract Law. K. Kojima et al. (Eds.): JSAI-isAI 2018, LNAI 11717, pp. 1–14, 2019. https://doi.org/10.1007/978-3-030-31605-1_9
Sentiment Analysis
Estado del Arte de corpus de Sentiment Analysis en español
En 2019 publicamos un estado del arte sobre corpus de Sentiment Analysis en español donde exploramos 20 corpus de distintos dominios.
Navas-Loro, M., Rodríguez-Doncel, V. (2019). “Spanish corpora for sentiment analysis: a survey”. In: Language Resources and Evaluation. issn: 1574-0218. doi: 10.1007/s10579-019-09470-8.
Corpus SAB/MAS
Enmarcado en el campo del Análisis de Sentimientos, hemos construido un corpus de tweets en español que expresan emociones hacia productos y marcas concretas. Este corpus, llamado Spanish Corpus for Sentiment Analysis towards Brands (SAB), se clasifica siguiendo una taxonomía de cuatro emociones y su opuesto, junto con un sentimiento neutral. Está publicado como Linked Data aquí; también se ha desarrollado un vocabulario. Posteriormente ampliamos las anotaciones en el corpus MAS, donde añadimos las categorías Marketing Mix (con las cuatro Ps del Marketing: Price, Place, Product y Promotion) y Purchase Funnel (indicando en qué momento de la compra se realiza la valoración).
Navas-Loro, M., Rodríguez-Doncel, V., Santana I., Fernández-Izquierdo, A., Sánchez, A., MAS: A Corpus of Tweets for Marketing in Spanish – The Semantic Web: ESWC 2018 Satellite Events, September 12-16, 2017. Ed. by Aldo Gangemi, Anna Lisa Gentile, Andrea Giovanni Nuzzolese, Sebastian Rudolph, Maria Maleshkova, Heiko Paulheim, Jeff Z Pan and Mehwish Alam. Cham: Springer International Publishing, pp. 363–375. isbn: 978-3-319-98192-5. doi: 10.1007/978-3-319-98192-5_53
Navas-Loro, M., Rodríguez-Doncel, V. , Santana I., Sánchez, A., Spanish Corpus for Sentiment Analysis towards Brands – Proceedings of Speech and Computer: 19th International Conference, SPECOM 2017, Hatfield, UK, September 12-16, 2017. Ed. by Alexey Karpov, Rodmonga Potapova, and Iosif Mporas. Cham: Springer International Publishing, pp. 680–689. isbn: 978-3-319-66429-3. doi: 10.1007/978-3-319-66429-3_68
Recursos: vocabulario SAB corpus SAB corpus MAS