Longitud léxica y frecuencia de uso en el español contemporáneo: un análisis estadístico de corpus

Autores/as

DOI:

https://doi.org/10.14198/ELUA.26993

Palabras clave:

longitud léxica, frecuencia de uso, formación de palabras, análisis estadístico, español contemporáneo, longitud lingüística

Resumen

En esta investigación se aborda la relación inversa que se produce en español entre la longitud léxica y la frecuencia de uso considerando los procesos de formación de palabras. Este objetivo central se aborda al tener en cuenta la estructura (derivación) de las palabras, para lo cual se analiza cuantitativamente la relación entre la longitud de las palabras, la frecuencia de uso, la formación de palabras y el estilo de escritura. Se revisan los análisis previos, basados exclusivamente en el cómputo de caracteres (Takefuta 1981; Yoshioka 1996), y también aquellos estudios que consideran la sílaba como unidad de medida de longitud (Herdan 1956; Gómez Guinovart 1999). En ambos casos se muestran sus carencias a través del análisis estadístico. Cuando la longitud de la palabra se mide utilizando el número de sílabas, el primer término de la distribución de frecuencia, las palabras de una sílaba, se convierten en un grupo que incluye palabras de distinto número de fonemas. De esta forma, el uso de unidades de medida aproximadas, como las sílabas, da como resultado observaciones aproximadas que no proporcionan una imagen precisa de la situación. Los resultados apuntan a que la longitud de las formas debe observarse desde una perspectiva no física, sino lingüística. Se considera en este estudio que la longitud lingüística de una palabra debe medirse desde la perspectiva de la morfología derivacional teórica y práctica, es decir, mediante prefijos y sufijos, que son unidades de morfología derivada. Lo que hace posible este tipo de análisis es, en definitiva, el estudio de frecuencia de los afijos. La metodología que se sigue es la correspondiente al análisis estadístico con medidas básicas como la distribución de frecuencia, la desviación estándar y otras fórmulas de creación propia en el programa R (R Core Team 2021). Asimismo, empleamos ggplot2 (Wickham 2016) para crear gráficos. Los textos sometidos a análisis forman parte de un corpus del español contemporáneo hablado y escrito reunido ad hoc para el estudio. Esta selección pretende aportar una solución general a una variedad de materiales y no una visión particular de un único material, lo que da como resultado una conclusión no definitiva, pero sí más fiable.

Citas

Alliende, F. (1987). Perfil 4, cuatro procedimientos rápidos para determinar la legibilidad de un texto. Lectura y Vida. Revista Latinoamericana de Lectura, año 8, (4). http://www.lecturayvida.fahce.unlp.edu.ar/numeros/a8n4/08_04_Alliende.pdf

Brunner, K. (1960 [1962]). Die englische Sprache. I und II. Max Niemeyer (Trad. De Matsunami, Tamotsu, Kinshiro Oshitari, Shigeru Ono, Kooichi Zin [1962]. Eigo hattatsushi. Taishukan).

Bybee, J. (2007). Frequency of Use and the Organization of Language. Oxford University Press. https://doi.org/10.1093/acprof:oso/9780195301571.001.0001

Blasco Pascual, F. J. y Ruiz Urbón, C. (2022). Análisis de textos desde la estilometría. Ediciones Universidad de Salamanca.

Crawford, A. N. (1985). Fórmula y gráfico para determinar la comprensibilidad de textos del nivel primario en castellano. Lectura y Vida. Revista Latinoamericana de Lectura, año 6, (4). http://www.lecturayvida.fahce.unlp.edu.ar/numeros/a6n4/06_04_Crawford.pdf

Davies, M. (2006). A Frequency Dictionary of Spanish. Core Vocabulary for Learners. Routledge. https://doi.org/10.4324/9780203415009

Divjak, D. (2019). Frequency in Language. Memory, Attention and Learning. Cambridge University Press. https://doi.org/10.1017/9781316084410

Ferrer García, C., Pascual Gaspar, E. y Laínez Gadea, J. A. (2009). Legibilidad y comprensibilidad de la información individual y consolidada en las empresas cotizadas españolas. XV Congreso AECA, 2009. https://www.aeca1.org/pub/on_line/comunicaciones_xvcongresoaeca/cd/27a.pdf

Frías Delgado, A. (2009). Distribución de frecuencias de la longitud de las palabras en español: aspectos diacrónicos y de estilometría. En P. Cantos Gómez y A. Sánchez Pérez (eds.). A Survey on Corpus-based Research. Panorama de investigaciones basadas en corpus (pp. 756-770). Asociación Española de Lingüística del Corpus. https://www.um.es/lacell/aelinco/contenido/pdf/51.pdf

García Hoz, V. (1953). Vocabulario usual, vocabulario común y vocabulario fundamental. Consejo Superior de Investigaciones Científicas.

Gómez Guinovart, J. (1999). La escritura asistida por ordenador. Problemas de sintaxis yde estilo. Servicio de Publicaciones de la Universidad de Vigo.

Greenberg, J. H. (1966, 2005). Language Universals. Walter de Gruyter GmbH & Co. https://doi.org/10.1515/9783110899771

Hatano, K. (1988). Introducción a la psicología de lengua y escritura (en japonés). Shogakukan.

Herdan, G. (1956). Language as Choice and Change. Noordhoff N. V. Juilland, A. y Chang-Rodríguez, E. (1964). Frequency Dictionary of Spanish Words. Mouton. https://doi.org/10.1515/9783112415467

Justicia Justicia, F. (1995). El desarrollo del vocabulario. Diccionario de frecuencias. Universidad de Granada.

Kabashima, T. (1968). Anatomía de expresión (en japonés). Sanseido.

Kin, A. (2018). Léxico. En T. Ogino (ed.). Introducción a la lingüística japonesa actual (en japonés). Meijishoin.

Martinet, A. (1970). Elementos de lingüística general (Trad. de J. Calonge Ruiz, 2.a ed.). Gredos.

Martínez Martínez, I. y Ueda, H. (2021). Inventario léxico de PRESEEA-Santander. https://zenodo.org/records/10620777

Martínez Martínez, I. y Ueda, H. (2023). Inventario morfológico de PRESEEA-Santander. https://zenodo.org/records/10620852

Menéndez Pidal, R. (1968). Manual de gramática histórica española (13.a ed.). Espasa-Calpe.

Moreno, Antonio, De la Madrid, G., Alcántara, M., González, A., Guirao, J. M. y De la Torre,

R. (2005). The Spanish corpus. Enin E. Cresti y M. Moneglia (eds.). CORAL-ROM. Integrated Reference Corpora for Spoken Romance Languages. John Benjamins. https://doi.org/10.1075/scl.15.06mor

Miller, G. (1951 [1979]). Language and Communication (Trad. de E. Goigorsky y S. Delpy [1979]. Lenguaje y comunicación. Amorortu editores). https://doi.org/10.1037/11135-000

Navarro Tomás, T. (1966). Estudios de fonología española. Las Americas Publishing Company. Ríos Hernández, I. N. (2017). Un acercamiento a la legibilidad de textos relacionados con el campo de la salud. CIESPA. https://doi.org/10.16921/chasqui.v0i135.2892

Saporta, S. (1963). Phoneme Distribution and Language Universals. En J. H. Greenberg (ed.). Universals of Language (pp. 61-72). The MIT Press.

Tanaka, K. (2021). Language and fractal (en japonés). Tokyo Daigaku Shuppankai.

Takefuta, Y. (1981). Konpyuuta no mita gendaieigo. Bokyaburari no kagaku (Inglés moderno visto por el ordenador. Ciencia del vocabulario, en japonés).

Ueda, H. (1987). Frecuencia y dispersión del vocabulario español. https://h-ueda.sakura.ne.jp/kenkyu/goi/frec-disp/frec-disp-0.pdf

Ueda, H. (2021). Parte final y acentuación de palabras españolas. Análisis de diccionarios, corpus grandes y datos sociolingüísticos, geográficos e históricos. Estudios de geolingüística, (1), 51-105 (en japonés).

Ueda, H. y Moreno Sandoval, A. (2017). Análisis de datos cuantitativos para estudios lingüísticos. https://h-ueda.sakura.ne.jp/gengo/4-numeros/doc/numeros-es.pdf

Urrutibéheity, H. N. (1972). The statistical properties of the Spanish lexicon. Cahiers de lexicologie, (20), 79-95.

Whatmough, J. (1956 [1960]). Language (Trad. de H. Toshio y K. Akira [1960]. Iwanamishoten).

Wickham, H. (2016). ggplot2: Elegant Graphics for Data Analysis. Springer-Verlag. https://doi.org/10.1007/978-3-319-24277-4_9

Wierzbicka, A. (1967 [2011]). I jezyku dla wszystkich. Warszawa. Ogawa Masatoshi, Ishii tetsushiro y Abe Yuuko (trad.) Anna sensei no gengogaku nyuumon (Introducción a la lingüística de la profesora Anna (en japonés). Tokyo gaikokugo daigaku shuppankai.

Yasumoto, B. (1960). Nuevos campos de la sicología de la escritura (en japonés). Sogensha.

Yasumoto, B. (1977). Estudios estilísticos actuales. En Estilo. Lengua japonesa (enjaponés) (pp. 395-423). Iwanami Shoten.

Yasumoto, B. (2009). Estilística cuantitativa. Sicología de escritura. En Enciclopedia de lingüística japonesa cuantitativa (en japonés). Asakurashoten.

Yoshioka, K. (1996 [1982]). Perspectiva de estudios estilísticos cuantitativos (Trad. De K. Anthony [1982]. The Computation of Style (pp. 196-237), en japonés). Nanundo.

Zipf, G. K. (1936). The Psychobiology of Language. An Introduction to Dynamic Philology. Routledge.

Zipf, G. K. (1949). Human Behavior and the Principle of Least Effort. An Introduction toHuman Ecology. Mansfiels Addison-Wesley Press.

Descargas

Estadísticas

Estadísticas en RUA

Publicado

14-01-2025

Cómo citar

Martínez Martínez, I., & Ueda , H. (2025). Longitud léxica y frecuencia de uso en el español contemporáneo: un análisis estadístico de corpus. ELUA: Estudios De Lingüística. Universidad De Alicante, (43), 161–181. https://doi.org/10.14198/ELUA.26993

Número

Sección

Miscelánea