Desde el punto de vista del análisis de datos tradicional, la respuesta a la pregunta anterior es simple.
- Machine Learning o Aprendizaje Automático, es un algoritmo que puede aprender de los datos sin depender de la programación basada en reglas.
- El modelado Estadístico es una formalización de las relaciones entre variables en los datos en forma de ecuaciones matemáticas.
El aprendizaje automático se trata de predicciones, aprendizaje supervisado, aprendizaje no supervisado, etc. Las estadísticas son sobre muestras, población, hipótesis, etc. Dos criaturas diferentes, ¿verdad? Bien, veamos si en realidad son tan diferentes.
Tanto el aprendizaje automático como las estadísticas tienen el mismo objetivo:
De acuerdo con Larry Wasserman,
"Ambos están preocupados con la misma pregunta: ¿cómo aprendemos de los datos?" En su blog, él declara cómo los mismos conceptos tienen diferentes nombres en los dos campos,
Estadísticas | Aprendizaje Automático | |
Estimación | Aprendizaje | |
Clasificador | Hipótesis | |
Dato Específico | Ejemplo/Instancia | |
Regresión | Aprendizaje Supervisado | |
Clasificación | Aprendizaje Supervisado | |
Covariable | Característica | |
Respuesta | Etiqueta |
Hoy en día, tanto el aprendizaje automático como las técnicas estadísticas se utilizan en reconocimiento de patrones, descubrimiento de conocimiento y minería de datos. Los dos campos convergen cada vez más a pesar de que la figura siguiente puede mostrarlos como casi exclusivos.
Fuente: SAS Institute; Un diagrama de Venn que muestra cómo el aprendizaje automático y las estadísticas están relacionados
Tanto el aprendizaje automático como las estadísticas comparten el mismo objetivo: aprender de los datos. Ambos métodos se enfocan en extraer conocimiento o información de los datos. Pero sus métodos se ven afectados por sus diferencias culturales inherentes. Están relacionados, seguro. Pero sus padres son diferentes.
El aprendizaje automático es un sub-campo de la informática y la inteligencia artificial. Se trata de construir sistemas que puedan aprender de los datos, en lugar de instrucciones explícitamente programadas.
Un modelo estadístico, por otro lado, es un subcampo de las matemáticas.
El aprendizaje automático es comparativamente un nuevo campo.
El poder de cómputo cada vez más barato y la disponibilidad de grandes cantidades de datos, han permitido a los Científicos de Datos capacitar a las computadoras para aprender mediante el Análisis de Datos. Pero el modelado estadístico existió mucho antes de que las computadoras se inventaran.
Diferencias metodológicas entre aprendizaje automático y estadística:
La diferencia entre los dos es que el aprendizaje automático enfatiza la optimización y el rendimiento sobre la inferencia, que es lo que concierne a las estadísticas.
Así es como un experto en estadística y aprendizaje de máquinas describirá el resultado del mismo modelo:
ML profesional.- "El modelo tiene una precisión del 85% en la predicción de Y, dado A, B y C".
Estadístico.- "El modelo tiene una precisión del 85% en la predicción de Y, dado A, B y C; y estamos 90% seguros de que obtendremos el mismo resultado ".
El aprendizaje automático no requiere suposiciones previas sobre las relaciones subyacentes entre las variables. Solo debe ingresar todos los datos que tenga, el algoritmo procesa los datos y éste descubrirá patrones con los cuales puede hacer predicciones sobre el nuevo conjunto de datos. El aprendizaje automático trata un algoritmo como una caja negra, siempre que funcione. Generalmente se aplica a conjuntos de datos de gran dimensión. Cuantos más datos tenga, más precisa será su predicción.
Por el contrario, los estadísticos deben comprender cómo se recopilaron los datos, las propiedades estadísticas del estimador (valor p, estimadores insesgados), la distribución subyacente de la población que están estudiando y los tipos de propiedades que esperarías si hicieras el experimento muchas veces . Necesita saber exactamente lo que está haciendo y proponer parámetros que le proporcionen el poder predictivo. Las técnicas de modelado estadístico generalmente se aplican a conjuntos de datos de baja dimensión.
Determinístico VS Estocástico
Sistema determinista a aquel en que el azar no está involucrado en el desarrollo de los futuros estados del sistema. Un modelo determinista producirá siempre la misma salida a partir de las mismas condiciones de partida o el estado inicial.
Se denomina estocástico (del latín stochasticus, que a su vez procede del griego στοχαστικός stochastikós "hábil en conjeturar") al sistema cuyo comportamiento es intrínsecamente no determinista. Un proceso estocástico es aquel cuyo comportamiento es no determinista, en la medida que el subsiguiente estado del sistema está determinado tanto por las acciones predecibles del proceso como por elementos aleatorios.
Con estas dos definiciones podemos entonces inferir que mientras la Estadística es determinista, el Aprendizaje Automático es estocástico.
¿Y qué podemos concluir de todo esto? La Informática ha sido, es y será la herramienta más valiosa para la Estadística. Mientras que la Informática es y será el cimiento del Aprendizaje Automático, uno de los pilares de la Cuarta Revolución Industrial y la Transformación Digital.