Variable exhaustiva

Enviado por Programa Chuletas y clasificado en Matemáticas

Escrito el en español con un tamaño de 3,28 KB

 

Arboles de decisión:


Un árbol de decisión es un método de clasificación en donde todas las variables de la matriz de datos, tanto la dependiente como las independientes, deben ser discretas (categóricas o numéricas discretas de dominio finito).

Cuando una variable independiente es numérica pero no es discreta de dominio finito, entonces es necesario transformarla en una variable categórica haciendo uso de intervalos. Ejemplo: la variable edades cuantitativa, pero al separarla en intervalos se convierte en categórica: por ejemplo: edad=1 si edad≤10, edad=2 si 11≤edad≤20, …, edad=10 si 91≤edad≤100. Entonces, los valores de la nueva variable edad pertenecen al conjunto {1,2,…,10}, y como estos valores no tienen sentido numérico (a pesar de ser números), significa que es una variable cualitativa (o categórica).

El mecanismo de clasificación de este método consiste en responder una secuencia de preguntas relacionadas con las carácterísticas del individuo, siendo la respuesta a la última pregunta precisamente la clase del individuo. Estas preguntas están organizadas en forma de árbol. Cada nodo del árbol corresponde a una pregunta, excepto los nodos hoja que corresponden a respuestas


Entropía:


Sea P={p1, p2, …, pH} la distribución de probabilidad asociada a la variable X. Se llama entropía de la variable X, E(X), a la siguiente expresión:


 La entropía de la variable X mide el grado de incertidumbre asociado a la misma. Como caso particular, suponga H=2, es decir, que X puede tomar sólo 2 valores (A y B), entonces, la entropía de X viene dada por E(X) = -p*log2(p) -(1-p)*log2(1-p),


Ganancia de información:


Suponga que se dispone de una matriz de datos (X) que entre sus atributos (variables) se encuentran dos atributos categóricos llamados C y A. La ganancia de información en el atributo
C cuando se toma en cuenta la información que posee el atributo A, viene dada por:

donde Na es el número de veces en la que ocurre que el atributo A toma el valor “a”, n es el número total de patrones (individuos) de X y Ca es el subconjunto de X en donde A=a.

Mientras mayor sea el valor de G(C,A) significa que menor es la incertidumbre en C cuando se conoce A, y por lo tanto, conociendo A se puede predecir con mayor exactitud a C. Si G(C,A) tiene un valor grande, significa que A y C están muy relacionados.


Validación de un árbol de decisión:


La construcción de un árbol de decisión no implica ningún tipo de suposiciones, de manera que su validación se limita simplemente a determinar la exactitud de sus resultados, para lo cual se utiliza la matriz de confusión. Esta matriz debe ser elaborada con los resultados del árbol para patrones no utilizados durante la fase de entrenamiento.

Entradas relacionadas: