Las fintech colombianas enfrentan un reto único en el scoring crediticio: deben evaluar clientes que frecuentemente no tienen historial crediticio formal en los burós tradicionales. Este artículo explica cómo los modelos de Machine Learning con datos alternativos permiten construir scoring para poblaciones no bancarizadas — el segmento de mayor crecimiento en Colombia.

El problema del "thin file" en Colombia

Se estima que más del 40% de los adultos colombianos son "thin file" — tienen historial crediticio insuficiente en Datacrédito o TransUnion para que un modelo tradicional los evalúe con confianza. Son trabajadores informales, jóvenes, migrantes venezolanos, personas que operan en efectivo.

Para una fintech que quiere crecer en este segmento, rechazarlos automáticamente es dejar dinero sobre la mesa. Aprobarlos sin modelo es asumir riesgo ciego. La solución es un scoring con datos alternativos.

¿Qué son los datos alternativos?

Son fuentes de información no tradicionales que predicen el comportamiento de pago aunque el cliente no tenga historial crediticio formal:

💡 Importante: El uso de datos alternativos en Colombia debe cumplir con la Ley 1581 de 2012 de protección de datos personales. Se requiere consentimiento explícito e informado del usuario para cada fuente de datos que se use en la decisión crediticia.

Arquitectura de un modelo de scoring fintech

Capa 1: Score de identidad y dispositivo

Antes de evaluar el riesgo crediticio, verificar que el solicitante es quien dice ser. Modelos de detección de identidad sintética, análisis de dispositivo y detección de múltiples aplicaciones desde el mismo dispositivo.

Capa 2: Score con buró (si existe historial)

Para clientes con historial en Datacrédito o TransUnion, un modelo tradicional de regresión logística o XGBoost con variables del buró sigue siendo el más poderoso. El error común es descartarlo completamente en favor de datos alternativos.

Capa 3: Score alternativo (para thin file)

Para clientes sin historial suficiente, un modelo entrenado con datos alternativos. La clave es tener al menos 6–12 meses de datos de repago propios para calibrar el modelo — al inicio muchas fintech usan modelos de transferencia o benchmarks del sector.

Capa 4: Score ensemble

El score final combina las capas anteriores ponderando según la disponibilidad y calidad de cada fuente. Un cliente con buró completo pesa más la capa 2; un cliente thin file pesa más la capa 3.

El reto de la regulación colombiana

La Superintendencia Financiera exige que los modelos usados para decisiones crediticias sean explicables — el cliente tiene derecho a saber por qué fue rechazado. Esto es un desafío con modelos complejos de ML.

La solución más usada en el sector es combinar modelos de alta precisión (XGBoost, redes neuronales) con técnicas de explicabilidad como SHAP values, que permiten generar una explicación individual para cada decisión de crédito.

TécnicaPrecisiónExplicabilidadRegulación SFC
Regresión Logística + WoEMediaAlta✅ Ideal
XGBoost + SHAPAltaMedia-Alta✅ Aceptable
Red Neuronal sin explicabilidadMuy altaBaja⚠️ Riesgoso
Scorecard tradicionalBaja-MediaMuy alta✅ Ideal

¿Cuántos datos necesita una fintech para entrenar su modelo?

Para un modelo propio de calidad se necesitan mínimo 1.000–2.000 casos con outcome de repago conocido (es decir, créditos que ya vencieron o fueron pagados). Una fintech nueva que no tiene ese volumen puede:

¿Tu fintech necesita un modelo de scoring?

Trabajamos con fintech desde etapas tempranas hasta escala. Diagnóstico gratuito para evaluar tus datos y diseñar la arquitectura correcta.

Diagnóstico gratuito →

Conclusión

El scoring crediticio para fintech colombianas no es una versión simplificada del modelo bancario — es una disciplina propia que combina datos alternativos, técnicas de ML avanzadas y cumplimiento regulatorio. Las fintech que lo hacen bien abren un mercado enorme de clientes subatendidos con riesgo controlado. Las que lo ignoran o lo hacen mal terminan con carteras deterioradas o rechazando buenos clientes innecesariamente.