Los primeros 100 chunks te dan más cobertura que los siguientes 9.900 juntos

Un análisis basado en 7 series de TV y 4 millones de tokens revela qué estructuras lingüísticas aparecen con más frecuencia y cómo priorizarlas.

Empecemos con una confesión: durante años estudié inglés como si el idioma fuera una sopa de letras donde cada palabra flota sola. Spoiler: no funciona así.

El lenguaje no es una colección de palabras independientes. Es un sistema de estructuras recurrentes — colocaciones, chunks fraseológicos, patrones con huecos («I don’t know what to make of it», «going to + VERBO») que aparecen una y otra vez. La pregunta que me obsesionó es: ¿cuántas de estas estructuras necesitas saber para cubrir la mayoría de los tokens (palabras) de una conversación real? ¿Y cuándo deja de merecer la pena seguir aprendiendo más?

Anticipo la respuesta: mucho antes de lo que crees.

El experimento (o «cómo convertir 7 series de TV en un problema de optimización»)

Construí un corpus con 697.547 frases (~4,04 millones de tokens) de siete series: Doctor Who, The Office, FRIENDS, The Big Bang Theory, How I Met Your Mother, Skins y Scrubs. La selección no es aleatoria: cubren desde el británico más británico hasta el californiano más californiano, pasando por adolescentes con problemas existenciales.

Composición del corpus

Sí, Doctor Who domina el 79% del corpus. Mitigué el sesgo con un cap de 8 ejemplos por serie durante la indexación e interleaving por shows. No os preocupéis, los Daleks no contaminan los datos.

Extracción de candidatos

De ese corpus extraje todos los n-gramas de longitud 2–5 con frecuencia ≥ 5 en al menos 2 series distintas. Para cada span genero dos tipos de chunk:

  • Lexical: los tokens exactos («I don’t know»)
  • Slotted: con comodines POS («to {verb} the»), mínimo 2 tokens literales, máximo 2 slots.

Resultado: ~100.000 candidatos. Demasiados para estudiarlos todos (a no ser que tengas 3 vidas).

Selección greedy (o «el algoritmo que decide qué merece la pena»)

Modelé el problema como un set cover ponderado: dado un corpus de tokens, quiero elegir los chunks que cubran el máximo número de posiciones con el mínimo número de tarjetas. Es el mismo tipo de problema que resuelven las compañías de telecomunicaciones para colocar antenas, solo que aquí las «antenas» son frases de FRIENDS.

Aplico CELF (Cost-Effective Lazy Forward), que garantiza una solución a (1 − 1/e) ≈ 63% del óptimo con coste O(n log n). Traducción: es 100× más rápido que la fuerza bruta y apenas pierdes calidad.

El hallazgo principal: los retornos decrecientes son brutales

Antes de ver el porcentaje total, mira esto:

Rendimiento marginal por bloque de 1K

  • Primer bloque (1–1K): +42,9 puntos porcentuales de cobertura. Casi te dan ganas de llorar de lo eficiente que es.
  • Segundo bloque (1K–2K): +8,1 pp. Todavía bien.
  • Tercer bloque (2K–3K): +4,6 pp. Empieza a doler.
  • Bloques 5K–10K: 1–2 pp cada uno. Ya estamos en modo suffering.
  • Bloques 10K–20K: < 1 pp cada uno. Esto ya es por orgullo.

Cobertura marginal por segmento

En términos de tokens nuevos por chunk, la caída es aún más dramática:

Rango Media tokens/chunk Respecto al inicio
1–100 6.676 100%
101–500 1.658 25%
501–1.000 690 10%
1.000–2.000 345 5%
2.000–5.000 145 2%
5.000–10.000 58 0,9%
10.000–20.000 25 0,4%

Retornos decrecientes

Los primeros 100 chunks te dan 6.676 tokens nuevos cada uno. Los últimos 10.000 te dan 25. Veinticinco. Es como pasar de regar con manguera a regar con cuentagotas.

Este es el hallazgo más robusto del análisis. La forma de la curva —una caída dramática seguida de un estancamiento— es lo que debería cambiar cómo priorizas tu estudio, independientemente de las cifras exactas.

Los números de cobertura

Con eso en mente, aquí están los números:

Curvas de cobertura

N chunks TV Train TV Test DailyDialog
100 16,5%
500 32,9% 30,3% 35,2%
1.000 41,4% 38,9% 42,9%
5.000 60,6% 58,4% 60,9%
10.000 67,9% 65,3% 67,7%
20.000 74,1% 71,4% 73,6%

Con 5.000 estructuras cubres el 60,9% de los tokens del corpus conversacional. Con 10.000, el 73,6%. Y luego la cosa se estanca.

Una aclaración importante: cobertura de tokens no es lo mismo que comprensión de una conversación. Si un chunk como «I don’t know» cubre 3 tokens, eso no significa que entiendas el contexto, la intención o el registro en que se usa. Significa que, estadísticamente, esos 3 tokens aparecen en el texto y tu mazo los incluye. La comprensión real depende de factores (sintaxis, semántica, pragmática, referencias culturales) que este análisis no mide.

La gran pregunta: ¿esto es «inglés de TV» o inglés de verdad?

Esta era mi mayor miedo. Si las estructuras solo funcionan para hablar como Sheldon Cooper, el proyecto no sirve para nada.

Usé DailyDialog (Li et al., 2017) como corpus de validación externa: 102.979 diálogos escritos por investigadores que no forman parte del entrenamiento. Si las curvas divergían, sabría que había overfitting al registro televisivo.

Resultado:

Corpus Cobertura con 20K chunks
TV Train (in-domain) 74,1%
DailyDialog 73,6%
Diferencia +0,54 pp

0,54 puntos porcentuales. Es una buena señal: las estructuras extraídas de series generalizan bien a otro corpus conversacional escrito.

Ahora bien, ojo con lo que esto no demuestra. Mira las tres curvas del gráfico anterior: son casi perfectamente paralelas. Eso confirma que no hay sobreajuste al corpus original, lo cual en ciencia de datos es una validación relevante. Pero DailyDialog es un corpus escrito y limpio, sin interrupciones, sin errores, sin acentos, sin ruido de fondo. Las conversaciones reales tienen todo eso, y la comprensión en vivo depende de factores que este análisis no captura: velocidad de habla, solapamiento de turnos, referencias culturales, ironía, contexto situacional.

Lo razonable es decir: las estructuras generalizan bien a texto conversacional escrito. La validación con conversación oral real (con acentos, ruido e interrupciones) queda pendiente.

¿Y por qué narices no se llega al 100%?

Buena pregunta. Con este método concreto, la cobertura se estanca en ~74%. No es por falta de datos, sino por tres razones:

Una advertencia antes: este límite no es una propiedad fundamental del inglés. Depende de decisiones metodológicas: n-gramas de longitud 2–5, exclusión de unigramas, chunks léxicos y slotted, corpus de TV, algoritmo CELF. Si cambiáramos esas variables —permitiendo estructuras más largas, dependencias sintácticas o modelos semánticos— el porcentaje probablemente cambiaría. Dicho esto, las razones concretas de este techo son:

1. El problema del unigrama solitario. Los tokens no cubiertos más frecuentes son:

Token Veces que aparece sin cubrir
and 4.297
‘s (contracción) 3.797
‘t (contracción) 3.674
i 2.822
yes 2.386
please 2.121

…palabras ultrafrecuentes que aparecen solas («Yes.», «OK.», «Please.»). Mi sistema solo selecciona chunks de 2+ tokens, así que estos se cuelan. Podría añadir unigramas, pero entonces el mazo incluiría tarjetas como «the». No gracias.

2. Combinatoria fraseológica infernal. El inglés conversacional tiene una combinatoria casi infinita. Las mismas palabras se combinan de formas ligeramente distintas en cada conversación. Ningún conjunto finito de n-gramas de longitud 2–5 puede capturarlas todas.

3. Vocabulario de cola larga. El 25% restante son términos técnicos, nombres propios, neologismos — cosas que aparecen una vez cada mil conversaciones. No están en los top-20K de un corpus de TV, ni deberían estarlo.

Conclusión: el 74% no es un fallo del método. Es un techo de este método concreto, no una propiedad fundamental del inglés en sí.

La decisión de diseño: dos mazos, no uno

Cobertura comparada por tamaños de mazo

La curva de eficiencia tiene un quiebre claro en 5.000 chunks. Por eso dividí el resultado en dos mazos:

Core (1–5K) Expansion (5K–10K)
Cobertura DailyDialog 60,9% +12,7 pp → 73,6%
Ratio esfuerzo/impacto 🚀 Muy alto ⛰️ Moderado
Perfil de aprendiz Principiante–intermedio Intermedio–avanzado
Recomendación Obligatorio Opcional (B2+)

Core: 5.000 estructuras, 60,9% de cobertura de tokens. Esto cubre más de la mitad de las palabras de cualquier corpus conversacional. Es el mazo que todo el mundo debería estudiar.

Expansion: otras 5.000, 73,6% acumulado. El porcentaje sube, pero el esfuerzo por tarjeta es mucho mayor. Recomendado si ya tienes un B2 y quieres pulir.

La composición de los mazos

Distribución por tamaño de n-grama

Core (1–5K) Expansion (5K–10K)
Bigramas (n=2) 84,9% 84,0%
Trigramas (n=3) 11,9% 11,4%
Cuatrigramas (n=4) 3,2% 4,5%
Pentagramas (n=5) < 0,1% < 0,1%
Lexical 85,6% 84,6%
Slotted 14,4% 15,4%

Mayoritariamente bigramas léxicos. Los slotted (con comodines) aumentan ligeramente en expansión — son estructuras más específicas que merecen la pena solo cuando ya tienes la base.

Los 10 chunks más valiosos

# Patrón Tipo Frec. Series Tokens nuevos Cobertura acum.
1 in the lexical 9.587 7 19.174 0,5%
2 i don’t lexical 9.133 7 18.266 0,9%
3 you know lexical 8.783 7 17.566 1,4%
4 of the lexical 8.749 7 17.498 1,8%
5 do you lexical 8.216 7 15.543 2,6%
6 are you lexical 8.163 7 16.323 2,2%
7 this is lexical 7.033 7 14.066 2,9%
8 to the lexical 6.767 7 13.534 3,3%
9 going to lexical 6.397 7 12.647 3,6%
10 to {verb} the slotted 3.897 7 11.444 3,9%

Fíjate: todos aparecen en las 7 series. No hay jerga de una serie concreta. Son estructuras universalmente conversacionales. Y el primero con comodín (el #10, «to {verb} the») demuestra que los patrones abstractos también importan — pero mucho menos que los chunks léxicos puros.

Cómo están diseñadas las tarjetas

Odio las tarjetas que te muestran el patrón abstracto («I don’t ___») y esperan que adivines. Eso no es aprender un idioma, es hacer un crucigrama.

Mis tarjetas son sentence-first (cloze):

Frente:

_____ make of it, but she looked really happy.

Reverso:

I don’t know what to make of it, but she looked really happy.

No sé qué pensar, pero ella parecía muy feliz.

— FRIENDS · #847

El diseño fuerza la recuperación en contexto — exactamente la habilidad que necesitas cuando alguien te suelta una estructura en medio de una conversación y tienes que procesarla en tiempo real.

Cada tarjeta incluye hasta 3 frases de ejemplo de series distintas, con un máximo de 8 ejemplos por serie para evitar el sesgo de Doctor Who. Traducción al español y audio TTS incluidos.

Para quién es esto

Si estás aprendiendo inglés y quieres optimizar tu tiempo de estudio (asumiendo que no te sobra el tiempo, que a nadie le sobra), estos mazos son para ti.

En lugar de memorizar listas de vocabulario que nunca aparecen juntas en la vida real, aprenderás las estructuras que más aparecen en los corpus conversacionales, ordenadas por su impacto real en cobertura de tokens. La primera tarjeta del mazo («in the») te da más cobertura que las últimas 5.000 juntas.

Eso no es marketing. Es un hecho estadístico.

Lo que los datos demuestran, lo que solo sugieren

Aquí quiero ser honesto sobre los límites de lo que puedo afirmar.

Demostrado:

  • Los retornos decrecientes son dramáticos: los primeros 1.000 chunks dan 42,9 pp de cobertura; los últimos 10.000 dan menos de 1 pp cada uno.
  • Las estructuras seleccionadas no están sobreajustadas al corpus de entrenamiento (validación DailyDialog: diferencia de 0,54 pp).
  • La curva de cobertura tiene un quiebre claro alrededor de 5.000 chunks.

Hipótesis plausible, no demostrada:

  • Que existe un "techo estructural" intrínseco del inglés conversacional cerca del 74%. Los datos muestran un techo de este método, no una constante del idioma. Cambia los parámetros (n-gramas más largos, unigramas, dependencias sintácticas) y el número cambia. La forma general de la curva —rendimientos decrecientes brutales— probablemente se mantiene. El porcentaje exacto, no necesariamente.

Lo que falta para hacer el argumento más fuerte:

  • Una comparación directa con el enfoque alternativo más obvio: ¿qué cobertura obtendríamos aprendiendo las 10.000 palabras más frecuentes en lugar de los 10.000 chunks? Si los chunks ganan en cobertura por unidad de esfuerzo de estudio, el argumento a favor de aprenderlos se vuelve cuantitativo. Por ahora es razonable pero solo sugerido.
  • Validación con corpus de habla oral real, no solo texto conversacional escrito.
  • Código y datos públicos para que otros puedan replicarlo y cuestionar los números.

Limitaciones del análisis (para que no te lleves a engaño)

  • Las series no son conversación real. El corpus principal son diálogos escritos por guionistas. Aunque la validación con DailyDialog muestra resultados consistentes, ambos corpus son texto limpio sin los problemas del habla real (acentos, ruido, tartamudeos, interrupciones).
  • Cobertura de tokens ≠ comprensión. El 74% mide qué proporción de palabras aparecen en los chunks seleccionados, no cuánto entiendes de una conversación. La comprensión real requiere sintaxis, semántica, pragmática y conocimiento del mundo que este método no captura.
  • Techo metodológico, no lingüístico. El límite del 74% depende de nuestras decisiones concretas (n-gramas 2–5, sin unigramas, chunks léxicos+slotted). No es una constante universal del inglés.
  • Sin comparación con enfoques rivales. No he comparado la selección greedy de chunks contra frecuencia simple de palabras ni contra otros métodos de selección. Es la pregunta más obvia que queda pendiente.
  • Sin intervalos de confianza. Los resultados son puntuales. Un análisis con validación cruzada y bootstrapping daría una imagen más robusta de la variabilidad.
  • Generalización a otros dominios. El corpus son series de TV. Las estructuras óptimas para inglés médico, jurídico o académico serían distintas.

Dicho esto, el hallazgo central —los rendimientos decrecientes son brutales y conviene priorizar las primeras miles de estructuras— es lo suficientemente robusto como para guiar el estudio, incluso si las cifras exactas cambian con metodologías distintas.


Los mazos están disponibles para descarga gratuita (enlace próximamente).

Mientras tanto, si tienes preguntas, sugerencias, o quieres contarme que «in the» es una chorrada (spoiler: no lo es), los comentarios están abiertos.


Datos, gráficos y código disponibles en el repositorio del proyecto. Generado con sudor y algoritmos greedy.

El verdadero hallazgo no es el 74%. Es que los primeros 100 chunks te dan más cobertura que los siguientes 10.000 juntos. Eso —y no la cifra exacta— es lo que debería cambiar cómo priorizas tu estudio.

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *