ELUA: Estudios de Lingüística. Universidad de Alicante

Extracción automática de unidades terminológicas guiada por Framenet: una aplicación al corpus electrónico CORD-19

Mario Crespo Miguel

DOI: https://doi.org/10.14198/ELUA.22357

Resumen

La evolución de la terminología va unida a las nuevas tecnologías y al desarrollo de plataformas de trabajo o interfaces, que permitan crear un glosario técnico de forma semiautomática o incluso automática. Las unidades terminológicas y sus propiedades están conectadas a la expresión del conocimiento de los campos especializados en los que aparecen, por lo que estos enfoques automáticos no solo se enfrentan a la tarea de determinar cuáles son las unidades terminológicas de un campo determinado, sino a expresar cómo se estructura dicha información en esa disciplina. Muchas de las unidades terminológicas que se pueden encontrar en un ámbito científico determinado aparecen en otros campos e, incluso, en el uso general. Los términos suelen estar presentes en el acervo léxico de las lenguas y comparten con las unidades léxicas un complejo conjunto de relaciones. La semántica de marcos es un modelo particularmente atractivo para el trabajo terminológico, interesado en dar cuenta de la conexión entre la estructura conceptual de un campo de conocimiento especializado y los elementos utilizados para transmitir este conocimiento. Esto ha llevado a muchos investigadores a utilizar FrameNet como forma de representar la terminología. FrameNet es un recurso en línea para el inglés basado en la semántica de marcos y respaldado por pruebas de corpus. Un marco se fundamenta en el hecho de que ciertas palabras evocan determinadas situaciones en las que tienen lugar determinados participantes. Estas situaciones o marcos son estructuras estereotipadas que representan áreas de experiencia y conocimiento sociocultural. Presentamos un enfoque estadístico basado en corpus que es capaz de seleccionar los marcos de FrameNet que mejor representan un conjunto de textos electrónicos sobre COVID-19 e indicar cuáles de sus unidades léxicas funcionan como unidades terminológicas de ese corpus. Los resultados muestran cómo esta metodología puede ser un buen apoyo al trabajo terminográfico, ya que no solo permite la extracción de unidades terminológicas, sino el uso del esqueleto formal de FrameNet como medio para estructurar este conocimiento.

Palabras clave

Terminología; FrameNet; Lenguaje especializado; Extracción de términos; Análisis de corpus; Frecuencia de aparición del término - Frecuencia inversa del documento (tf-idf)

Texto completo:

PDF Estadísticas

Referencias

Azoulay, D. (2017). Frame-based knowledge representation using large specialized corpora. En L. Steels y J. Feldman (Eds.), 2017 AAAI Spring Symposium on computational construction grammar and natural language understanding (pp. 119-126). Palo Alto, California: AAAI Press. https://www.aaai.org/ocs/index.php/SSS/SSS17/paper/view/15324

Baker, C., C. J. Fillmore y J.B. Lowe. (1998). The Berkeley FrameNet project. En C. Boitet y P. Whitelock (Eds.), Proceedings of the Thirty-Sixth Annual Meeting of the Association for Computational Linguistics and Seventeenth International Conference on Computational (pp. 86-90). San Francisco, California: Morgan Kaufmann Publishers. https://doi.org/10.3115/980845.980860

Cabré, M. T. (2005). La Terminología, una disciplina en evolución: pasado, presente y algunos elementos de futuro. Debate Terminológico, 1. http://riterm.net/revista/ojs/index.php/debateterminologico/article/view/23/45

Carrió Pastor, M. L. (2010). La variación del lenguaje de especialidad en artículos científicos. Pragmalingüística, 15-16, 71-83. https://doi.org/10.25267/Pragmalinguistica.2017.i25

Casas Gómez, M. (2006). Modelos representativos de documentación terminográfica y su aplicación a la terminología lingüística. Revista de Lingüística y Lenguas Aplicadas, 1(1), 25-36. https://doi.org/10.4995/rlyla.2006.680

Casas Gómez, M. (2014). A Typology of Relationships in Semantics. Quaderni di semantica: Rivista Internazionale di Semantica Teorica e Applicata, 35 (2), 45-74.

Crespo, M. (2020a). Automatic Corpus-based translation of a Spanish FrameNet medical Glossary. Colección Lingüística. Sevilla: Universidad de Sevilla.

Crespo, M. (2020b). Lingüística digital: revisión de su estado actual y retos en el Instituto Universitario de Investigación en Lingüística Aplicada de la Universidad de Cádiz. Pragmalingüística, 28, 148-165. https://doi.org/10.25267/Pragmalinguistica.2020.i28.08

Crespo, M. (2021). Aproximación al trasvase automático de predicados de Framenet al español mediante Wordnet. Revista de Lingüística y Lenguas Aplicadas, 16, 49-62. https://doi.org/10.4995/rlyla.2021.14408

Cristea, D. y I. C. Pistol. (2012). Multilingual linguistic workflows. Multilingual Processing in Eastern and Southern EU Languages. Low-resourced Technologies and Translation (pp. 228-246). Cambridge, Reino Unido: Cambridge Scholars Publishing.

Davies, M. (2019). The Corpus of Contemporary American English (COCA): 560 million words, 1990-present. Disponible online en https://www.english-corpora.org/coca/

Dolbey, A., M. Ellsworth y J. Scheffczyk. (2006). BioFrameNet: A Domain-specific FrameNet Extension with Links to Biomedical Ontologies. En O. Bodenreider (ed.), Proceedings of the "Biomedical Ontology in Action" Workshop at KR-MED (pp. 87-94). Baltimore, Maryland: National Library of Medicine.

Durán-Muñoz, I. (2016). Producing frame-based definitions: A case study. Terminology. International Journal of Theoretical and Applied Issues in Specialized Communication, 22(2), 23-249. https://doi.org/10.1075/term.22.2.04mun

Fillmore, C. J. (1977). Scenes and Frames Semantics. En A. Zampolli (Ed.), Linguistic Structures Processing (pp. 55-82). Amsterdam: North Holland.

Fillmore, C. J. (1985). Frames and the semantics of understanding. Quaderni di Semantica, 6(2): 222-254.

Fillmore, C. J. y C. F. Baker. (2010). A Frames Approach to Semantic Analysis. En B. Heine y H. Narrog (Eds.), The Oxford Handbook of Linguistic Analysis (pp. 313-339). Oxford: Oxford University Press.

Gildea, D y D. Jurafsky. (2002). Automatic Labelling of Semantic Roles. Computational Linguistics, 28, 245-288. https://doi.org/10.1162/089120102760275983

Guerrero Ramos, G. y M. F. Pérez Lagos. (2003). Lexicografía, terminología y diccionario. En E. Ortega Arjonilla, A. B. Martínez López y E. Echeverría Pereda (Eds.), Panorama actual de la investigación en traducción e interpretación (pp. 541-563). Granada: Atrio.

Johnson, Christopher y C. J. Fillmore. (2000). The FrameNet tagset for frame-semantic and syntactic coding of predicate-argument structure. En J. Wiebe (Ed.), Proceedings of the 1st Meeting of the North American Chapter of the Association for Computational Linguistics (ANLP-NAACL 2000) (pp. 56-62). Seattle WA: ACM.

L'Homme, M. C. (2018). Maintaining the balance between knowledge and the lexicon in terminology: a methodology based on Frame Semantics. Lexicography, 4(1), 3-21. https://doi.org/10.1007/s40607-018-0034-1

L'Homme, M. C., B. Robichaud y C. Subirats Rüggeberg. (2020). Building Multilingual Specialized Resources Based on FrameNet: Application to the Field of the Environment. En T. Timponi Torrent, C. F. Baker, O. Czulo, K. Ohara, y M. R. L. Petruck (Eds.), Proceedings of the International FrameNet Workshop 2020: Towards a Global, Multilingual FrameNet (pp. 85-92). Marseille: ELRA.

L'Homme, M. C., C. Subirats Rüggeberg y B. Robichaud. (2016). A Proposal for combining 'general' and specialized frames. En M. Zock, A. Lenci y S. Evert (Eds.), Proceedings of the 5th Workshop on Cognitive Aspects of the Lexicon (CogALex-V) (pp. 156-165). Osaka, Japan: ACL.

Lossio- Ventura, J. A., C. Jonquet, M. Roche y M. Teisseire. (2014). Towards a mixed approach to extract biomedical terms from text corpus. International Journal of Knowledge Discovery in Bioinformatics (IJKDB), 4(1), 1-15. https://doi.org/10.4018/ijkdb.2014010101

Malm, P., V. Mumtaz, B. Shafqat, Lars y A. Saxena. (2018). LingFN: Towards a framenet for the linguistics domain. En T. Timponi Torrent, L. Borin y C. F. Baker,11th edition of the Language Resources and Evaluation Conference (pp. 37-43). Paris, France: ELRA.

Miller, G. A., R. Beckwith, C. Fellbaum, D. Gross y K. Miller (Eds.). (1993). Five Papers on WordNet, cls report 43. Tecnical report. New Jersey: Cognitive Science Laboratory. Princeton University.

Pérez Hernández, C. (2002). Explotación de los córpora textuales informatizados para la creación de bases de datos terminológicas basadas en el conocimiento. Estudios de lingüística del español, 18. Disponible online en http://elies.rediris.es/elies18/

Potęga, P. (2017). Frame Based Modelling of Specialist Languages. Studia Anglica Resoviensia 14: 121-31. https://doi.org/10.15584/sar.2017.14.10

Ramírez Salado, M. (2019). Terminología y lingüística forense: usos terminológicos relacionados con los ámbitos de actuación de la lingüística forense y su interfaz con otras disciplinas. (Tesis doctoral, Universidad de Cádiz).

Ruppenhofer, J., M. Ellsworth, M. R. L. Petruck, C. Johnson y J. Scheffczyk. (2016). FrameNet II: Extended Theory and Practice. https://framenet2.icsi.berkeley.edu/docs/r1.7/book.pdf

Triola, M. (2007). Elementary statistics. 10th ed. Boston: Addison-Wesley.

Venturi, G. (2013). A semantic annotation of Italian legal texts. A FrameNet-based approach. En M. Fried y K. Nikiforidou (Eds). Advances in Frame Semantics (pp. 51-84). Amsterdam / Philadelphia: John Benjamins Publishing Company. https://doi.org/10.1075/bct.58.02ven

Verdaguer, I. (2020). Semantic frames and semantic networks in the Health Science Corpus. Estudios de lingüística del español, (Anejo 1), 117-155.

Vossen, P. (Ed.). (1998). EuroWordNet: A Multilingual Database with Lexical Semantic Networks. Dordrecht: Kluwer Academic Publishers. https://doi.org/10.1007/978-94-017-1491-4

Vossen, P. (Ed.). (2002). EuroWordNet: general document. URL: http://vossen.info/docs/2002/EWNGeneral.pdf

Wang, L. L., k. Lo, Y. Chandrasekhar, R. Reas, J. Yang, D. Burdick y S. Kohlmeier. (2020). CORD-19: The Covid-19 Open Research Dataset. ArXiv. https://aclanthology.org/2020.nlpcovid19-acl.1.pdf

Witschel, H. F. (2005). Terminology extraction and automatic indexing - comparison and qualitative evaluation of methods. En B. Nistrup Madsen y H. Erdman Thomsen (Eds.), Proceedings of 7th International Conference on Terminology and Knowledge Engineering. (pp. 363-374). Copenhagen: Association for Terminology and Knowledge Transfer.

Yarowsky, D. (1995). Unsupervised word sense disambiguation rivaling supervised methods. En H. Uszkoreit, Proceedings of the 33rd annual meeting on Association for Computational Linguistics (pp. 189-196). Cambridge, Massachusetts: ACL. https://doi.org/10.3115/981658.981684




DOI: https://doi.org/10.14198/ELUA.22357





Copyright (c) 2022 Mario Crespo Miguel

Licencia de Creative Commons
Este obra está bajo una licencia de Creative Commons Reconocimiento 4.0 Internacional.