Las fintech colombianas enfrentan un reto único en el scoring crediticio: deben evaluar clientes que frecuentemente no tienen historial crediticio formal en los burós tradicionales. Este artículo explica cómo los modelos de Machine Learning con datos alternativos permiten construir scoring para poblaciones no bancarizadas — el segmento de mayor crecimiento en Colombia.
El problema del "thin file" en Colombia
Se estima que más del 40% de los adultos colombianos son "thin file" — tienen historial crediticio insuficiente en Datacrédito o TransUnion para que un modelo tradicional los evalúe con confianza. Son trabajadores informales, jóvenes, migrantes venezolanos, personas que operan en efectivo.
Para una fintech que quiere crecer en este segmento, rechazarlos automáticamente es dejar dinero sobre la mesa. Aprobarlos sin modelo es asumir riesgo ciego. La solución es un scoring con datos alternativos.
¿Qué son los datos alternativos?
Son fuentes de información no tradicionales que predicen el comportamiento de pago aunque el cliente no tenga historial crediticio formal:
- Datos de comportamiento digital: Cómo interactúa el cliente con la app — frecuencia, horarios, navegación
- Datos de telecomunicaciones: Patrones de recarga, consumo de datos, antigüedad del número
- Datos de pagos digitales: Historial en Nequi, Daviplata, PSE, recibos pagados
- Datos de comercio electrónico: Historial de compras, devoluciones, calificaciones como vendedor
- Datos de redes sociales: Con consentimiento explícito del usuario
- Datos del dispositivo: Tipo de teléfono, sistema operativo, antigüedad del dispositivo
💡 Importante: El uso de datos alternativos en Colombia debe cumplir con la Ley 1581 de 2012 de protección de datos personales. Se requiere consentimiento explícito e informado del usuario para cada fuente de datos que se use en la decisión crediticia.
Arquitectura de un modelo de scoring fintech
Capa 1: Score de identidad y dispositivo
Antes de evaluar el riesgo crediticio, verificar que el solicitante es quien dice ser. Modelos de detección de identidad sintética, análisis de dispositivo y detección de múltiples aplicaciones desde el mismo dispositivo.
Capa 2: Score con buró (si existe historial)
Para clientes con historial en Datacrédito o TransUnion, un modelo tradicional de regresión logística o XGBoost con variables del buró sigue siendo el más poderoso. El error común es descartarlo completamente en favor de datos alternativos.
Capa 3: Score alternativo (para thin file)
Para clientes sin historial suficiente, un modelo entrenado con datos alternativos. La clave es tener al menos 6–12 meses de datos de repago propios para calibrar el modelo — al inicio muchas fintech usan modelos de transferencia o benchmarks del sector.
Capa 4: Score ensemble
El score final combina las capas anteriores ponderando según la disponibilidad y calidad de cada fuente. Un cliente con buró completo pesa más la capa 2; un cliente thin file pesa más la capa 3.
El reto de la regulación colombiana
La Superintendencia Financiera exige que los modelos usados para decisiones crediticias sean explicables — el cliente tiene derecho a saber por qué fue rechazado. Esto es un desafío con modelos complejos de ML.
La solución más usada en el sector es combinar modelos de alta precisión (XGBoost, redes neuronales) con técnicas de explicabilidad como SHAP values, que permiten generar una explicación individual para cada decisión de crédito.
| Técnica | Precisión | Explicabilidad | Regulación SFC |
|---|---|---|---|
| Regresión Logística + WoE | Media | Alta | ✅ Ideal |
| XGBoost + SHAP | Alta | Media-Alta | ✅ Aceptable |
| Red Neuronal sin explicabilidad | Muy alta | Baja | ⚠️ Riesgoso |
| Scorecard tradicional | Baja-Media | Muy alta | ✅ Ideal |
¿Cuántos datos necesita una fintech para entrenar su modelo?
Para un modelo propio de calidad se necesitan mínimo 1.000–2.000 casos con outcome de repago conocido (es decir, créditos que ya vencieron o fueron pagados). Una fintech nueva que no tiene ese volumen puede:
- Usar modelos de transferencia de otras carteras similares
- Empezar con reglas conservadoras y acumular datos propios
- Acceder a datos de burós alternativos como Experian o Equifax
- Asociarse con una entidad establecida para acceder a historial de comportamiento
¿Tu fintech necesita un modelo de scoring?
Trabajamos con fintech desde etapas tempranas hasta escala. Diagnóstico gratuito para evaluar tus datos y diseñar la arquitectura correcta.
Diagnóstico gratuito →Conclusión
El scoring crediticio para fintech colombianas no es una versión simplificada del modelo bancario — es una disciplina propia que combina datos alternativos, técnicas de ML avanzadas y cumplimiento regulatorio. Las fintech que lo hacen bien abren un mercado enorme de clientes subatendidos con riesgo controlado. Las que lo ignoran o lo hacen mal terminan con carteras deterioradas o rechazando buenos clientes innecesariamente.