Red de Bibliotecas Virtuales de Ciencias Sociales en
América Latina y el Caribe
Por favor, use este identificador para citar o enlazar este ítem:
https://biblioteca-repositorio.clacso.edu.ar/handle/CLACSO/22391
Título : | Implementación de técnicas de minería de datos para el análisis de información del atlas sísmico colombiano Implementation of data mining techniques for the analysis of information from the Colombian seismic atlas |
Autor : | Hernández Cáceres, Javier García Díaz, Juan Carlos https://scienti.minciencias.gov.co/cvlac/visualizador/generarCurriculoCv.do?cod_rh=0000817864 Grupo de Investigación Preservación e Intercambio Digital de Información y Conocimiento - Prisma |
Palabras clave : | Systems engineering;Data mining;Electronic data processing;Research;KDD;CRISP;Seismic atlas of Colombia;Ingeniería de sistemas;Minería de datos;Procesamiento electrónico de datos;Investigaciones;Atlas sísmico de Colombia;Minería de datos;WEKA |
Editorial : | Universidad Autónoma de Bucaramanga UNAB Facultad Ingeniería Pregrado Ingeniería de Sistemas |
Descripción : | Hoy en día, se estima que el crecimiento de información digital es del 60% anual, lo cual indica, que hay gran cantidad de información almacenada en las bases de datos de diferentes entidades y organismos. Sin embargo, permanece oculta mucha información valiosa que al ser identificada y explotada permite establecer patrones o normas a las empresas, permitiendo reducir costos ó maximizar ganancias y, así mismo, generan un nuevo conocimiento; no obstante, hallar la forma adecuada de extraer este nuevo conocimiento.
A nivel nacional, las empresas explotadoras de hidrocarburos son de las más interesadas en extraer nuevo conocimiento de sus bases de datos, como es el caso del ICP (Instituto Colombiano del Petróleo), organismo que en el año 2005, desarrolló el Atlas sísmico colombiano, toda vez que le permitió, almacenar la información sísmica colombiana. En este atlas sísmico reposa gran cantidad de información útil que por medio de las técnicas de minería de datos le proporcionan al ICP poder establece estrategias, normas para minimizar costos y maximizar ganancias y productividad.
En este proyecto se implementara un prototipo computacional desarrollado con el cual, se pretenden analizar los datos obtenidos en el atlas sísmicos colombianos que se encuentran almacenados en la base de datos ICP, y poder facilitar el trabajo de análisis de las técnicas sobre grandes volúmenes de datos, en razón de obtener resultados rápidos y confiables. INTRODUCCIÓN 17 1. MARCO TEORICO 22 1.1 PROCESO DE DESCUBRIMIENTO EN BASES DE DATOS 22 1.1.1 Proceso de KDD 23 1.1.1.1 Base de datos 24 1.1.1.2 Selección 24 1.1.1.3 Pre procesado 24 1.1.1.4 Transformación 24 1.1.1.5 Minería de datos 24 1.1.1.6 Interpretación y Evaluación 25 1.2 MINERÍA DE DATOS 26 1.2.1Proceso de minería de datos 27 1.2.2 Fases de la minería de datos 28 1.2.2.1 Selección 28 1.2.2.2 Preprocesado 29 1.2.2.3 Fases de la minería de datos 29 1.2.2.4 Extraccion de conocimiento 30 1.2.2.5 Evaluación 30 1.2.3 Aplicaciones de la minería de datos 32 1.2.4 Ventajas de la minería de datos 32 1.2.5 Ejemplo de la minería de datos 33 1.3 TÉCNICAS DE MINERÍA DE DATOS 34 1.3.1 Análisis Factorial 35 1.3.1.1 Análisis de componentes principales 38 1.3.1.1.1 Obtención de los componentes Principales 40 1.3.2 Análisis de Clústers 41 1.3.3 Análisis de Regresión 44 1.3.4 Árboles de Decisión 45 1.3.4.1 Árbol C4.5 46 1.3.4.2 Entropía 47 1.3.5 Reglas de asociación 47 1.3.5.1Reglas de asociación Aprioris 48 2. METODOLOGÍA CRISP – DM 50 2.1 PROBLEMA 51 2.2 COMPRENSIÓN DE LOS DATOS 52 2.3 CARACTERIZACIÓN DE LOS DATOS 53 2.4 MODELADO 55 2.4.1 Modelo A 55 2.4.2 Modelo B 57 2.5 ENTRENAMIENTO DE DATOS 58 2.5.1 Entrenamiento de datos 58 2.5.2 Resultados Técnica de Análisis de Regresión 59 2.5.3 Resultados Técnica de Componentes Principales 61 2.5.4 Resultados Técnica de Clústers 66 2.5.5 Resultados Técnica de Arboles de Decisión 68 2.5.5.1 Reglas de decisión 72 2.6 EVALUACIÓN 76 2.6.1 Resultados Técnica de Clústers 80 2.6.2 Resultados aplicando Técnica de Análisis de Regresión 83 2.6.3 Resultados Técnica de Componentes Principales 85 2.6.4Resultados Técnica de Análisis de Regresión 88 2.6.5 Resultados aplicando Técnica de Análisis de Regresión a componentes principales 89 2.6.6 Resultados Técnica de Arboles de Decisión 90 2.6.7 Resultados aplicando Técnica de Arboles de Decisión A componentes principales 96 2.6.8 Resultados aplicando Técnica de Arboles de Decisión Mediante el método de Percentage Split 100 2.7 SOLUCIÓN 104 3. CONCLUSIONES 105 BIBLIOGRAFÍA 109 ANEXOS 114 Pregrado Today, it is estimated that the growth of digital information is 60% per year, which indicates that there is a large amount of information stored in the databases of different entities and organizations. However, a lot of valuable information remains hidden which, when identified and exploited, allows companies to establish patterns or norms, allowing them to reduce costs or maximize profits and, likewise, generate new knowledge; however, find the right way to extract this new knowledge. At the national level, hydrocarbon companies are among the most interested in extracting new knowledge from their databases, such as the ICP (Colombian Petroleum Institute), an organization that in 2005 developed the Colombian Seismic Atlas. every time it allowed him to store the Colombian seismic information. This seismic atlas contains a large amount of useful information that, through data mining techniques, provides the ICP with the power to establish strategies and standards to minimize costs and maximize profits and productivity. This project will implement a computational prototype developed with which, it is intended to analyze the data obtained in the Colombian seismic atlas that are stored in the ICP database, and to facilitate the work of analysis of the techniques on large volumes of data , in order to obtain fast and reliable results. |
URI : | http://biblioteca-repositorio.clacso.edu.ar/handle/CLACSO/22391 |
Otros identificadores : | http://hdl.handle.net/20.500.12749/1403 instname:Universidad Autónoma de Bucaramanga - UNAB reponame:Repositorio Institucional UNAB |
Aparece en las colecciones: | Instituto de Estudios Políticos - IEP - Cosecha |
Ficheros en este ítem:
No hay ficheros asociados a este ítem.
Los ítems de DSpace están protegidos por copyright, con todos los derechos reservados, a menos que se indique lo contrario.