Representación del Conocimiento y Aprendizaje Automático: Técnicas y Sistemas de Recomendación

Enviado por Chuletator online y clasificado en Informática y Telecomunicaciones

Escrito el en español con un tamaño de 5,04 KB

Representación del Conocimiento

Planteamiento Simbólico

La representación no siempre son correspondencias biunívocas.

  • NELL (Never Ending Language Learning): Primero intenta leer (extraer) hechos encontrados en millones de webs. Después intenta mejorar esa apreciación con más datos.
  • A veces hay que representar propiedades que afectan a un conjunto (Herencia y cuantificadores universales).
  • Y pertenencia a un conjunto:
    • Extensión (enumerando todos los elementos del conjunto).
    • Intención (a través de reglas que lo evalúen en cada caso).

Modelos de Representación

  • Estáticos: Relaciones tipo BBDD, se obtiene conocimiento mediante aprendizaje inductivo.
  • Conocimiento estructurado:
    1. Representaciones gráficas (con herencias): frames, objetos y redes semánticas.
    2. Representaciones lógicas: Se obtiene conocimiento con métodos de inferencia (modus ponens, resolución).

En la representación gráfica se construye con jerarquía (clases, subclases e instancias) con sus propiedades, de manera que se crea un grafo dirigido acíclico. El conocimiento se construye (inferencia) a través de la herencia de propiedades.

  • Representaciones vectoriales: Caso noticias/lectores: para representar un lector, se almacena la trayectoria de noticias en una sesión en un vector, de manera que están en el mismo orden en el que se leyeron. Otros ejemplos son la evaluación de exámenes y los productos de alimentación.

Aprendizaje Automático

  • Aprendizaje: Problemas linealmente separables o no.

Simplicity First

  • ZeroR: Computa la clase más frecuente del conjunto de entrenamiento. Usa 0 parámetros.
  • OneR: Aprende con un árbol de decisión de 1 nivel.

Instance Based Learning

  • k-NN (vecino cercano): El vecino más prudente pregunta a k personas. Busca el k set de entrenamiento más cercano a los nuevos datos. Predice la clase más frecuente en esos k ejemplos.

Evaluación

La evaluación por resustitución usa el mismo conjunto de datos que se usa para construir el árbol (error optimista). La validación cruzada es un método que permite evaluar el rendimiento de un sistema de clasificación (% aciertos). El método divide los datos en k subconjuntos, de los cuales uno de ellos es un conjunto de pruebas y los otros como entrenamiento. Se calcula el rendimiento con todos y después se hace la media. El más común es 10.

Holdout: Hacer la evaluación más fiable repitiendo el proceso con otros subconjuntos.

Clasificadores

  • ZeroR y OneR.
  • Árboles de decisión (Ej: C4.5) con nodos etiquetados con preguntas o test. Las hojas están etiquetadas con tags de predicción. Para construirlos se hace de arriba a abajo (Recursivo divide y vencerás).
    1. Seleccionar atributo para raíz. Crear ramas para cada valor del atributo.
    2. Dividir instancias en subconjuntos (Uno por cada rama desde el nodo).
    3. Repetir recursivamente para cada rama, usando solo instancias de la misma.

Para elegir el mejor atributo:

  • El que haga el árbol más pequeño.
  • Heurístico (escoger el que produzca los nodos más puros).
  • El que de la mejor ganancia de información.

SVM (Support Vector Machines)

Es un algoritmo de clasificación que busca un hiperplano de dimensión n-1 (determinado por un vector) que separe de forma óptima a los puntos de una clase de la de otra. Utilizan el producto escalar para determinar la posición de un elemento en el espacio. El caso general es separar en dos regiones separadas por el hiperplano. Existen optimizaciones como "Margin maximization".

Sistemas de Recomendación

Def: Son algoritmos que aprenden los intereses y preferencias de cada consumidor y les hacen recomendaciones que se ajustan a sus gustos.

  • Conectar usuarios e items.
  • Asisten en las ventas.
  • Manejan feedback y características de items.

Objetivos

  • Predicción (grado de gusto a un usuario. Criterio evaluación SR).
  • Interacción (Dar buenas sensaciones).
  • Comercial (incrementar visitas/ventas).

Ejemplos

  • Google: PageRank Se basa en puntuar los sitios utilizando como medida el número de páginas que apuntan a ese sitio, así como el número de links salientes. Además también tiene en cuenta el tiempo que un usuario permanece en la página.
  • Spotify: Usa el historial para recomendar.
  • Apple: Beats audio para aprender gustos y ofrecer sugerencias.

Entradas relacionadas: