Sobre la mineria de datos

La implementación de un sistema de inteligencia empresarial (BI, Business Intelligence) se puede ver desde la perspectiva de dos capas. La primera comprende los reportes estándares, reportes especiales, análisis multidimensionales, tablero de mandos, scorecards y alertas. La segunda capa se encuentra más comúnmente en aquellas organizaciones que han construido y madurado la primera capa. El análisis avanzado de datos por medio de modelos predictivos y pronósticos define esta capa; en otras palabras, la minería de datos.

La minería de datos tiene un alcance y aplicaciones muy amplias. Puede ser utilizada en cualquier situación donde se requiere encontrar conocimiento en vastas cantidades de datos.

La razón de ser

La minería de datos se refiere al proceso de extracción de patrones escondidos en grandes cantidades de datos. El término minería es con frecuencia utilizado como analogía como en el caso de la minería de oro o de carbón; sin embargo, el producto final de la minería de datos no son los datos, es el conocimiento. La minería de datos se aplica en una gran variedad de situaciones, pero presentamos aquí los escenarios empresariales más comunes en los cuales se presenta como una solución:

Explotación de datos: Cuando la cantidad de información crece significativamente, solo los modelos estadísticos especializados, pueden ayudar a desenmascarar patrones importantes; en esta situación, los análisis simples y multidimensionales no serán suficientes.

Comportamiento predictivo: Estas son situaciones donde las organizaciones necesitan predecir el comportamiento de los clientes. Este tipo de análisis permite identificar a los clientes en riesgo de cambiar hacia la competencia. Dentro de una población de animales se puede llevar a cabo modelado de enfermedades basado en información relevante sobre la especie, realizando predicciones y estimando el riesgo de enfermedad.

Ventas cruzadas: Comúnmente conocido como análisis de la cesta de mercado, la minería de datos puede dar información sobre los patrones de ventas cruzadas. Las tiendas en línea de libros como Amazon.com, usan esta técnica para sugerir libros relacionados con el que se está buscando o comprando.

Formaciones taxonómicas: La minería de datos puede ser aplicada en situaciones donde los datos de entrenamiento (los datos usados para entrenar el modelo de minería) están perdiendo algún tipo de etiqueta. Las etiquetas se usan para conceptualizar datos. Por ejemplo, en el análisis que examina las relaciones entre las ventas y las temporadas, estas últimas pueden ser categorizadas como primavera, verano, etc. El clustering o la segmentación es el proceso de particionamiento de datos en clases o incluso en jerarquías de clases, para los cuales los miembros de un grupo tienen características similares.

Pronósticos: Para estimar valores futuros de entidades, se debe aplicar técnicas de pronósticos. Por ejemplo, pronosticando la demanda futura de sus productos, un fabricante puede planear su producción.

Arquitectura de los sistemas de minería de datos

Al describir la arquitectura de un sistema de minería de datos, suponemos la presencia de un almacén o bodega de datos que contienen los datos de la organización. Aunque la minería de datos se puede aplicar a una amplia gama de fuentes de datos, es mejor iniciar con un almacén de datos en el que los hechos y las dimensiones se han identificado, y un marco de limpieza de datos establecido con el fin de garantizar una buena calidad de los mismos.

La base de conocimientos:


La corteza de un sistema de minería de datos es la base de datos de una organización. Este es el campo de conocimiento que describe los datos de una organización. Él incluye jerarquías de conceptos que organizan atributos o atribuyen valores de conceptos o clases específicas hacia generales. Los conceptos pueden ser implícitos, como las direcciones que se describen con número, calle, cuidad, estado y país. Las jerarquías de conceptos pueden ser creadas por medio de la organización de los valores. Un ejemplo de dicha jerarquía, comúnmente conocida como grupo predefinido de jerarquías, es el tamaño de la empresa, que puede ser definido como micro (< 5 empleados), pequeño (5 a 100 empleados), mediano (101 a 500 empleados y grande (> 500 empleados)

Los niveles de interés constituyen otro ejemplo del campo de los conocimientos. Estas medidas ayudan a clasificar o filtrar las normas que se generan a partir de los datos para determinar los patrones que serán más útiles para un negocio. Los niveles de interés pueden incluir medidas objetivas que se identifican estadísticamente y medidas subjetivas que se derivan de las creencias al respecto de las relaciones de los datos ayudando a evaluar el grado de probabilidad de que un evento ocurra o no, segun los resultados obtenidos a partir de minería de datos. La base de conocimientos es un elemento esencial en todas las etapas del proceso de minería de datos.

2. El proceso de la minería de datos
Fig. 1. Creación del modelo de minería de datos

La discusión sobre los procesos de la minería de datos en este articulo, está centrada en la creación de los modelos y su evaluación. El modelo constituye el corazón o centro de la minería de datos. El primer paso es la creación del modelo, a través de la selección de datos importantes para el objetivo. Por ejemplo, si un ejercicio de investigación sobre educación necesita estudiar el rendimiento de los estudiantes a través de varias ciudades en un estado o departamento especifico, solo los datos de ese estado son relevantes. Así mismo, si el objetivo es estudiar las relaciones entre la asistencia y la ocupación y salario de los padres, los atributos importantes incluirán la asistencia de la entidad estudiantes (sin las calificaciones o niveles) y la ocupación y salario de la entidad padres (sin importar edad o grupo cultural).


Una vez establecido el objetivo del ejercicio de la minería de datos, se debe elegir la función o algoritmo. El modelo se estructura para almacenar los resultados encontrados por el algoritmo. La siguiente tabla señala a grandes rasgos, los algoritmos más comúnmente usados (una discusión en detalle de estos algoritmos, se sale del marco de este artículo).

Algoritmo Descripción
Reglas de asociación Este algoritmo ayuda a descubrir elementos que están asociados. Una implementación común de este algoritmo es el análisis de la cesta de compras, donde se responde a la pregunta “¿si un cliente compra el artículo A y B, que otro artículo tenderá a comprar?” por medio de el examen de las asociaciones entre A y B con otros artículos comprados en el pasado.
Clustering El Clustering crea grupos de objetos de datos basados en su similitud. Los objetos dentro de un cluster son similares a sí mismos y diferentes a los objetos de otros clusters. Clustering tiene una extensa aplicabilidad: en biología para el desarrollo de taxonomías; en los negocios sirve para agrupar clientes basados en su comportamiento, en geografía se usa para agrupar lugares.
Arboles de decisión Los árboles de decisión son estructuras donde una rama divide el grupo de datos para particionar su distribución. Cada rama está basada en un atributo que genera una división significativa en la información. Se pueden realizar pronósticos aplicando los valores del nuevo atributo al árbol de decisiones.
Bayes simples Los algoritmos Bayes tienen un método sistemático de aprendizaje basado en la evidencia. Allí se combinan probabilidades condicionales e incondicionales para calcular las probabilidades de una hipótesis.
Regresión La Regresión ayuda a descubrir la dependencia del valor de un atributo con respecto a otros atributos dentro de la misma entidad u objeto. La regresión es similar a los árboles de decisión en cuanto a su contribución para clasificar datos, pero predice atributos continuos, en lugar de separados.
Series de tiempo Las series de tiempo representan datos en varios intervalos de tiempo o cualquier otro indicador cronológico. Este se usa para pronosticar valores futuros como la demanda y el tráfico de un sitio Web, usando técnicas en auto regresión (una rama del análisis regresivo dedicada al análisis de series de tiempo) y árboles de decisión.

Autora: Anna Mallikarjunan-TEC

Biblioteca Digital Colombiana

Del portal de Universia

Tomada del portal de Universiahttp://www.universia.net.co

Ya cada día nos acercamos más a proyectos de bibliotecas digitales que países como México  Brasil, ya habían empezado, y es el Proyecto Biblioteca Digital Colombiana, un portal que se lanza desde el día de hoy y promete ser un espacio de encuentro de investigadores, profesores y estudiantes en donde podrán encontrar publicaciones de varias universidades del país. De igual forma iniciativas como la World Digital Library han logrado impulsar la necesidad de los países de digitalizar sus repositorios y así permitir un mayor acceso a la información que cada país, tiene para brindar a sus ciudadanos.

El proyecto se presentara los días 4 y 5 Junio en la Universidad del Rosario, con una conferencia internacional de expertos en la creación de bibliotecas digitales, como la española Alicia López, representante del proyecto Driver de la Unión Europea y el brasileño Helio Kuramoto, del Instituto Brasileño de Ciencia y Tecnología (IBICT).

Red de Estudiantes de la Información en Bibliotic 2009

La red de estudiantes de la información para Iberoamérica participara el próximo 12 de Mayo en Bibliotic 2009, el primer encuentro de bibliotecas en Tecnología de la información y comunicaciones, de 2:00 p.m a 3:00 p.m en la Biblioteca Virgilio Barco. Espero los que puedan asistir y participar en este evento, para enriquecer este gran proyecto, de igual forma presentaremos las conclusiones del encuentro aquí, para nuestros amigos de la red.

http://www.bibliotic.info/

Ponencia aceptada:

http://www.bibliotic.info/spip.php?article28

Estudio estudiantes de la Información en Iberoamerica


El presente estudio fue realizado por medio de una encuesta entre 51 estudiantes de diferentes universidades del país y venezuela en el que se dicta las carreras realacionadas con la Ciencia de la Información, Bibliotecología, Documentación, Archiviística Y Museología. 

Red de estudiantes de la Información para Iberoamérica

 

Como una de las conclusiones más importantes del pasado 5o Encuentro Nacional de Estudiantes de la Información, se dispuso la creación de la Red de Estudiantes de la Información para Iberoamerica, que a través de una red social, permita el desarrollo de estos futuros encuentros e ideas y experiencias de los estudiantes de la Información, Bibliotecología, Documentación, Archivística y  Museología de Colombia e Iberoamerica. Actualmente cuenta con 105 miembros de países como España, Argentina, Perú, Brasil, Venezuela  y Colombia. Por lo que esperamos una mayor expansión y desarrollo de está red.

5o Encuentro Nacional de Estudiantes de Ciencia de la Información, Bibliotecología, Documentación, Museología y Archivística

logoencuentro

 Los estudiantes de Ciencia de la Información –Bibliotecología de la Pontificia Universidad Javeriana dando continuidad a los encuentros nacionales realizados recientemente (III Encuentro Nacional de Estudiantes, Universidad de la Salle, Abril 2005 y IV Encuentro Nacional de Estudiantes- EIB, septiembre 2006), tienen el gusto de invitarlos al 5o Encuentro Nacional de Estudiantes de Ciencia de la Información, Bibliotecología, Documentación, Museología y Archivística el cual tendrá lugar los días 29 de Septiembre al 1 de octubre de 2008 en Bogotá, y tendrá como objetivo proponer un espacio de diálogo e integración entre los estudiantes de la información del país. Mas información en www.estudiantesdelainformacion.com

Plan TIC Colombia 2008

Es una gran logro que hoy Colombia tenga una iniciativa como el Plan de Tecnologias de la Información y las comunicaciones donde se ha planteado una inquietud, sobre el acceso a las nuevas tecnologias de la informaciòn y que desde hace algunos años otros paise de la región como Costa Rica y Chile, han demostrado que con compromiso se pude lograr un nivel de competividad e inclusión a la sociedad de la información. Dentro de los ejes que se ha trazado este plan estan:

Fuente: Ministrerio de Comunicaciones. Plan Nacioanl de Tecnologías de la Información y las Comunicaciones. En: http://www.colombiaplantic.org/quees.html

De igual forma iniciativas como computadores para educar, ampliación de la banda ancha y portales de contenidos como Colombia Aprende son ejemplos de esfuerzos que se han realizado. ¿Pero son estas iniciativas gubernamentales las que logren la meta en 2019 donde todos estemos conectado e informados?  

Es la sociedad quien se apropia de la información, escoge las herramientas para acceder y hace uso de ellas, depende de la apropiación tecnologica que puedan tener. Podemos tener los mejores computadores, pero si nadie los quiere usar, simplemente por que nadie les pregunto si querian realmente usarlo. Vemos como los tramites de varias entidades del distrito estan en internet y van con las politicas de acceso y uso de la información, pero si estamos ante una persona mayor que nunca a tocado un computador, pero lo obligan a hacer su tramite por internet, no creo que vea en la misma oportunidad.

Otro ejemplo es la penetración de telefonia celular en Colombia, muy superior a la penetración de telefonia local en tan solo unos años, donde se han hecho grandes inversiones en infraestructura tecnológica y fue la sociedad quien decidio hacer uso de la telefonia celular por su practicidad y fácil uso, aunque al principio a muchos nos quedaba grande colgar con el botion rojo.

 Se  ha invertido en programas como Compartel para el uso de telecentros, pero en la realidad hoy  vemos como en cada esquina existen dos y tres cafes internet donde las personas chatean con amigos ciberespaciales por horas, pero salen sin haber usado el conocimiento para transformar su realidad.

 El camino por recorrer es muy largo, ¿Quienes lleveran a cabo estos ambisiosos proyectos de inclusión digital? ¿El gobierno, los ingenieros de sistemas, los tecnologos de la información o los profesionales de la información ? Considero que ante todo debemos conocer el contexto de nuestra comunidades donde socialmente aún somos excluyentes, queriendo estandarizar todo y no reconociendo que una de las particularidades de ser Colombiano es que somos multiculturales y pluri-etnicos.

Debemos estar claros primero que somos diferentes y hacer respetar esas diferencias, pero no con competitividad para aplastar al otro, sino a partir de las diferencias trabajar cooperativamente buscando un beneficio común, creando redes de trabajo e intercambio de experiencias y conocimientos para conocer al otro y desde aquí incluirnos digitalmente.

Que diferencia hay entre una comuniadad de estudiantes universitarios que crean una comunidad en internet y toda su información la intercambian a traves de la web 2.0 creando herramientas y contenidos de interes común, ya que hay dificultades para reunirsen en persona y además su inquietud por las tecnologias, la cual nadie guio, ni enseño lograron apropiarsen? a una comunidad en el sur del país en donde no hay luz para conectar un computador, o la señal de ningun operador celular entra, pero que han logrado reunirsen alrededor de unos libros que compartieron entre todos y empiezan a contar historias, contrastando sus vivencias con aquellas que cuenta el libro, e intercambiando pensamientos e ideas con autores de diversas partes del mundo, donde no hubo una bit de intercambio de información.