Programa del Curso
Día 01
Visión general de Big Data Business Intelligence para el Análisis de Inteligencia Criminal
- Estudios de caso de la policía: Predicción del delito
- Tasa de adopción de Big Data en agencias de aplicación de la ley y cómo están alineando su operación futura en torno a Big Data Predictive Analytics
- Soluciones de tecnología emergente como sensores de balas, video de vigilancia y redes sociales
- Utilizando la tecnología Big Data para mitigar la sobrecarga de información
- Interfacing Big Data con datos legados
- Comprensión básica de las tecnologías habilitadoras en análisis predictivo
- Data Integration y visualización de Dashboard
- Gestión de fraudes
- Business Rules y detección de fraudes
- Detección y perfilado de amenazas
- Análisis de costo-beneficio para la implementación de Big Data
Introducción a Big Data
- Principales características de Big Data: Volumen, Variedad, Velocidad y Veracidad.
- Arquitectura MPP (Massively Parallel Processing)
- Data Warehouses: esquema estático, conjunto de datos de evolución lenta
- Databases MPP: Greenplum, Exadata, Teradata, Netezza, Vertica, etc.
- Soluciones basadas en Hadoop – sin condiciones sobre la estructura del conjunto de datos.
- Patrón típico: HDFS, MapReduce (crunch), recuperar de HDFS
- Apache Spark para procesamiento de flujos
- Lote: adecuado para analítico/no interactivo
- Volumen: datos de flujo CEP
- Elecciones típicas: productos CEP (por ejemplo, Infostreams, Apama, MarkLogic, etc.)
- Menos producción lista: Storm/S4
- NoSQL Databases: (columnar y clave-valor): Mejor adaptado como adjunto analítico a data warehouse/base de datos
NoSQL soluciones
- Tienda KV - Keyspace, Flare, SchemaFree, RAMCloud, Oracle NoSQL Database (OnDB)
- Tienda KV - Dynamo, Voldemort, Dynomite, SubRecord, Mo8onDb, DovetailDB
- Tienda KV (Jerárquica) - GT.m, Cache
- Tienda KV (Ordenada) - TokyoTyrant, Lightcloud, NMDB, Luxio, MemcacheDB, Actord
- KV Cache - Memcached, Repcached, Coherence, Infinispan, EXtremeScale, JBossCache, Velocity, Terracoqua
- Tienda de tuplas - Gigaspaces, Coord, Apache River
- Tienda de objetos Database - ZopeDB, DB40, Shoal
- Tienda de documentos - CouchDB, Cloudant, Couchbase, MongoDB, Jackrabbit, XML-Databases, ThruDB, CloudKit, Prsevere, Riak-Basho, Scalaris
- Wide Columnar Store - BigTable, HBase, Apache Cassandra, Hypertable, KAI, OpenNeptune, Qbase, KDI
Variedades de datos: Introducción a Data Cleaning problemas en Big Data
- RDBMS – estructura/schema estática, no promueve un entorno ágil y exploratorio.
- NoSQL – semi estructurado, suficiente estructura para almacenar datos sin esquema exacto antes de almacenar datos
- Problemas de limpieza de datos
Hadoop
- ¿Cuándo seleccionar Hadoop?
- ESTRUCTURADO: los almacenes de datos/ bases de datos empresariales pueden almacenar datos masivos (a un costo) pero imponen estructura (no es bueno para la exploración activa)
- Datos SEMI ESTRUCTURADOS: difíciles de realizar con soluciones tradicionales (DW/DB)
- Almacenar datos = ENORME esfuerzo y estático incluso después de la implementación
- Para variedad y volumen de datos, procesados en hardware de Commodities: HADOOP
- El hardware de Commodities es necesario para crear un clúster Hadoop
Introducción a Map Reduce /HDFS
- MapReduce: distribuir la informática en múltiples servidores
- HDFS: hacer que los datos estén disponibles localmente para el proceso informático (con redundancia)
- Datos: pueden ser no estructurados/sin esquema (a diferencia de RDBMS)
- Responsabilidad del desarrollador para dar sentido a los datos
- Programming MapReduce = trabajar con Java (pros y contras), cargar datos manualmente en HDFS
Día 02
¿Ecosistema Big Data -- Construyendo Big Data ETL (Extraer, Transformar, Cargar) -- ¿Qué herramientas Big Data usar y cuándo?
- Hadoop vs. Otras soluciones NoSQL
- Para acceso interactivo y aleatorio a los datos
- Hbase (base de datos orientada a columnas) sobre Hadoop
- Acceso aleatorio a los datos, pero restricciones impuestas (máx. 1 PB)
- No es bueno para analítica ad-hoc, bueno para registrar, contar y series de tiempo
- Sqoop - Importar de bases de datos a Hive o HDFS (acceso JDBC/ODBC)
- Flume: transmitir datos (por ejemplo, datos de registro) a HDFS
Sistema Big Data Management
- Partes móviles, nodos de cálculo que comienzan/fail: ZooKeeper - Para servicios de configuración/coordination/naming
- Pipeline/workflow complejo: Oozie: gestionar workflow, dependencias, cadena de margaritas
- Implementar, configurar, gestión de clústeres, actualizar, etc. (sys admin): Ambari
- En la nube: Whirr
Predictive Analytics -- Técnicas Fundamentales e Inteligencia de Negocios basada en Aprendizaje Automático
- Introducción a Machine Learning
- Técnicas de clasificación de aprendizaje
- Predicción bayesiana: preparando un archivo de entrenamiento
- Máquina de vectores de soporte
- Algebra de p-Tree KNN y minería vertical
- Neural Networks
- Problema de variable grande Big Data -- Bosque aleatorio (RF)
- Problema de automatización Big Data – RF de conjunto de modelos múltiplos
- Automatización a través de Soft10-M
- Herramienta de análisis de texto-Treeminer
- Agile aprendizaje
- Aprendizaje basado en agentes
- Aprendizaje distribuido
- Introducción a herramientas de código abierto para análisis predictivo: R, Python, Rapidminer, Mahut
Predictive Analytics Ecosistema y su aplicación en el Análisis de Inteligencia Criminal
- Tecnología y el proceso de investigación
- Análisis de información
- Analítica de visualización
- Analítica predictiva estructurada
- Analítica predictiva no estructurada
- Perfilado de amenazas/fraudes/proveedores
- Motor de recomendaciones
- Detección de patrones
- Descubrimiento de reglas/escenarios: fracaso, fraude, optimización
- Descubrimiento de la raíz
- Análisis de sentimiento
- Analítica CRM
- Analítica de redes
- Analítica de textos para obtener información de transcripciones, declaraciones de testigos, charla de internet, etc.
- Revisión asistida por tecnología
- Analítica de fraudes
- Analítica en tiempo real
Día 03
Analítica en tiempo real y Scalable sobre Hadoop
- Por qué fallan los algoritmos analíticos comunes en Hadoop/HDFS
- Apache Hama- para Bulk Synchronous distributed computing
- Apache SPARK- para cluster computing y analítica en tiempo real
- CMU Graphics Lab2- Enfoque asíncrono basado en grafos para la informática distribuida
- Enfoque basado en álgebra de KNN p: Treeminer para reducir el costo de hardware de operación
Herramientas para eDiscovery y análisis forense
- eDiscovery sobre Big Data vs. datos Legacy: una comparación de costos y rendimiento
- Codificación predictiva y revisión asistida por tecnología (TAR)
- Demo en vivo de vMiner para entender cómo TAR permite un descubrimiento más rápido
- Indexación más rápida a través de HDFS: Velocidad de datos
- NLP (procesamiento de lenguaje natural): productos y técnicas de código abierto
- eDiscovery en idiomas extranjeros: tecnología para el procesamiento de idiomas extranjeros
Big Data BI para Cyber Security – Obtener una visión de 360 grados, recopilación rápida de datos e identificación de amenazas
- Entender los conceptos básicos de la analítica de seguridad: superficie de ataque, mala configuración de seguridad, defensas de host
- Infraestructura de red / Gran datapipe / ETL de respuesta para análisis en tiempo real
- Prescriptivo vs predictivo: reglas fijas basadas en reglas vs auto-descubrimiento de reglas de amenaza a partir de metadatos
Recopilación de datos dispares para el análisis de inteligencia criminal
- Usar IoT (Internet de las cosas) como sensores para capturar datos
- Usar imágenes de satélite para vigilancia doméstica
- Usar datos de vigilancia e imágenes para identificación criminal
- Otras tecnologías de recopilación de datos: drones, cámaras corporales, sistemas de etiquetado por GPS y tecnología de imagen térmica
- Combinar la recuperación de datos automatizada con datos obtenidos de informantes, interrogatorios e investigaciones
- Forecasting actividad delictiva
Día 04
BI de prevención de fraudes de Big Data en Fraud Analytics
- Clasificación básica de Fraud Analytics: basada en reglas vs análisis predictivo
- Aprendizaje automático supervisado vs no supervisado para la detección de patrones de fraude
- Business a fraude empresarial, fraude de reclamaciones médicas, fraude de seguros, evasión fiscal y lavado de dinero
Social Media Analítica -- Recopilación y análisis de inteligencia
- Cómo Social Media es utilizado por los criminales para organizar, reclutar y planificar
- API de ETL Big Data para extraer datos de redes sociales
- Texto, imagen, metadatos y video
- Análisis de sentimientos a partir de fuentes de redes sociales
- Filtrado contextual y no contextual de fuentes de redes sociales
- Dashboard Social Media para integrar diversas redes sociales
- Perfilado automatizado de redes sociales
- Se dará una demostración en vivo de cada análisis a través de la herramienta Treeminer
Big Data Analítica en el procesamiento de imágenes y transmisiones de vídeo
- Técnicas de almacenamiento de imágenes en Big Data -- Solución de almacenamiento para datos que superan petabytes
- LTFS (sistema de archivos de cinta lineal) y LTO (cinta lineal abierta)
- GPFS-LTFS (sistema de archivos paralelo general - sistema de archivos de cinta lineal) -- solución de almacenamiento en capas para grandes datos de imagen
- Fundamentos de la analítica de imágenes
- Reconocimiento de objetos
- Segmentación de imágenes
- Seguimiento de movimiento
- Reconstrucción de imágenes en 3D
Biométricas, ADN y programas de identificación de próxima generación
- Más allá de la huella dactilar y el reconocimiento facial
- Reconocimiento de voz, pulsaciones de teclas (analizando el patrón de escritura de un usuario) y CODIS (sistema combinado de índices de ADN)
- Más allá de la coincidencia de ADN: usar la fenotipificación de ADN forense para construir una cara a partir de muestras de ADN
Big Data Panel de control para un rápido acceso a diversos datos y visualización:
- Integración de la plataforma de aplicación existente con el dashboard Big Data
- Gestión de Big Data
- Estudio de caso de Big Data Dashboard: Tableau y Pentaho
- Usar la aplicación Big Data para impulsar servicios basados en la ubicación en Govt.
- Sistema de seguimiento y gestión
Día 05
Cómo justificar la implementación de BI Big Data dentro de una organización:
- Definiendo el ROI (Retorno sobre Investment) para implementar Big Data
- Estudios de caso para ahorrar tiempo a los analistas en la recopilación y preparación de datos: aumentar la productividad
- Ganancia de ingresos por menores costos de licencia de bases de datos
- Ganancia de ingresos por servicios basados en la ubicación
- Ahorro de costos por prevención de fraudes
- Un enfoque de hoja de cálculo integrada para calcular los gastos aproximados frente a las ganancias/ahorros de ingresos de la implementación de Big Data.
Procedimiento paso a paso para reemplazar un sistema de datos heredado por un sistema Big Data
- Hoja de ruta de migración Big Data
- ¿Qué información crítica se necesita antes de diseñar un sistema Big Data?
- ¿Cuáles son las diferentes formas de calcular el volumen, la velocidad, la variedad y la veracidad de los datos?
- ¿Cómo estimar el crecimiento de los datos?
- Estudios de caso
Revisión de Big Data Proveedores y revisión de sus productos.
- Accenture
- APTEAN (antes CDC Software)
- Sistemas Cisco
- Cloudera
- Dell
- EMC
- Corporación GoodData
- Guavus
- Sistemas de datos de Hitachi
- Hortonworks
- HP
- IBM
- Informatica
- Intel
- Jaspersoft
- Microsoft
- MongoDB (anteriormente 10Gen)
- MU Sigma
- Netapp
- Soluciones de Opera
- Oracle
- Pentaho
- Platfora
- Qliktech
- Quantum
- Rackspace
- Revolution Analytics
- Salesforce
- SAP
- SAS Instituto
- Sisense
- Software AG/Terracotta
- Automatización Soft10
- Splunk
- Sqrrl
- Supermicro
- Software Tableau
- Teradata
- Think Big Analytics
- Sistemas Tidemark
- Treeminer
- VMware (parte de EMC)
Sesión de preguntas y respuestas
Requerimientos
- Conocimiento de los procesos y sistemas de datos de la aplicación de la ley
- Comprensión básica de SQL/Oracle o base de datos relational
- Conocimiento básico de estadísticas (nivel de hoja de cálculo)
Audiencia
- Especialistas en la aplicación de la ley con formación técnica