Imagen de fondo

Diccionario de Conceptos Clave


En esta sección encontrarás definiciones y explicaciones de los términos más relevantes en modelación estadística, SIG y teledetección. El objetivo es brindarte herramientas para tomar decisiones informadas. Queremos que comprendas las aplicaciones y limitaciones de cada concepto, y veas cómo pueden ayudarte a resolver problemas y mejorar tus proyectos.

Nuestro compromiso es ofrecer información confiable y transparente, explicada de forma sencilla pero rigurosa. Creemos que un cliente informado sabe exactamente lo que está contratando y por qué lo necesita. Esperamos que este “Diccionario de Conceptos Clave” te sea útil para familiarizarte con el lenguaje técnico y aprovechar al máximo los servicios que ofrecemos.

  • A

  • Agricultura de Precisión: es un enfoque que aplica tecnologías de información, sensores remotos (imágenes satelitales, drones) y sistemas de posicionamiento global (GPS) para gestionar de manera específica cada parte del campo, optimizando el uso de insumos (agua, fertilizantes, pesticidas) y mejorando la productividad. Esto reduce costos, minimiza el impacto ambiental y ayuda a monitorear la salud de los cultivos.

  • Algoritmo: es un conjunto de pasos o instrucciones precisas que, cuando se siguen en orden, resuelven un problema o realizan una tarea específica. En programación y en IA, los algoritmos transforman datos de entrada en resultados siguiendo reglas bien definidas. Su eficiencia puede determinar la velocidad y la escalabilidad de un sistema.

  • API (Application Programming Interface): es un conjunto de definiciones y protocolos que permiten que diferentes aplicaciones o servicios se comuniquen entre sí. Por ejemplo, un sitio web (front-end) hace una llamada a una API para solicitar información a un servidor (back-end). Facilita la integración y separación de responsabilidades en un sistema.

  • Ajustar Modelo (Entrenar un Modelo): consiste en encontrar los mejores valores de sus parámetros (por ejemplo, los coeficientes de una regresión lineal o las ponderaciones de una red neuronal) para que describa correctamente la relación entre variables o clasifique/prediga de la manera más certera posible. Se hace usando datos de entrenamiento y evaluando su capacidad de generalización con datos de prueba o validación.

  • B

  • Back-end (Desarrollo Web): es la parte de una aplicación o sitio web que funciona “detrás” de la interfaz. Incluye la lógica de negocio, la gestión de bases de datos, la seguridad y los servicios que proveen información al front-end. Corre en un servidor y maneja peticiones, procesamientos y conexiones con bases de datos u otros servicios.

  • Base de Datos Relacional vs. NoSQL: Las bases de datos relacionales organizan la información en tablas (filas, columnas) y usan SQL (ej. MySQL, PostgreSQL). Las bases NoSQL usan estructuras diferentes (documentos, grafos, columnas anchas) que pueden ser más flexibles o escalables (ej. MongoDB, Cassandra). La elección depende de la naturaleza de los datos y la aplicación.

  • C

  • Clasificación Supervisada vs. No Supervisada: En la clasificación supervisada, el algoritmo se entrena con ejemplos etiquetados (p. ej., “bosque”, “agua”, “zona urbana”). En la no supervisada, el algoritmo agrupa píxeles o datos similares sin información previa de las clases, descubriendo clústeres o grupos por sí solo.

  • Computación en la nube: es la disponibilidad de recursos informáticos (almacenamiento, servidores, bases de datos, software) a través de internet, sin necesidad de adquirir ni administrar infraestructura física propia. Permite la escalabilidad, el acceso remoto y un ahorro de costos, lo cual es muy beneficioso para el análisis de grandes volúmenes de datos.

  • Corrección de sesgo: es el proceso de ajustar o mejorar un conjunto de datos o un modelo para eliminar o reducir errores sistemáticos (sesgos) que distorsionan las conclusiones. Puede implicar técnicas estadísticas, recolección de datos más representativos o enfoques de posprocesamiento, asegurando que el modelo sea más preciso y justo.

  • D

  • Datos de Entrenamiento (Training Data): es la porción de datos usada para “enseñar” a un modelo (estadístico o de machine learning) cómo detectar patrones o relaciones. Si estos datos están sesgados o son poco representativos, el modelo aprenderá de manera equivocada.

  • Datos de Prueba (Test Data): son datos separados para evaluar objetivamente el rendimiento de un modelo ya entrenado. Permiten verificar si el modelo generaliza bien a información nueva y detectar posibles sobreajustes.

  • Datos Espaciales: son aquellos que incluyen información de ubicación o geometría en el espacio (coordenadas, puntos, líneas, polígonos). Son fundamentales para la cartografía y el análisis geoespacial (SIG, teledetección, modelos espaciales).

  • Data Science (Ciencia de Datos): conjunto de técnicas y herramientas para extraer conocimiento y valor de grandes volúmenes de información. Implica estadística, programación, visualización y comunicación de resultados. Muy utilizado en negocios, investigación científica y monitoreo ambiental.

  • Deep Learning: es una subárea del Machine Learning que utiliza redes neuronales profundas (con muchas capas). Cada capa extrae características cada vez más complejas de los datos, lo que permite descubrir patrones muy intrincados. Es fundamental en aplicaciones como reconocimiento de imágenes, procesamiento de lenguaje natural y análisis de voz.

  • DEM (Modelo Digital de Elevación): es un tipo de raster que representa la altitud de la superficie terrestre (o del fondo oceánico) en cada píxel. Se utiliza en estudios topográficos, hidrológicos, estimación de pendiente, entre otros.

  • Downscaling: es una técnica para obtener datos o predicciones con mayor resolución espacial o temporal a partir de modelos o datos de menor resolución. Se utiliza, por ejemplo, para refinar proyecciones climáticas regionales y adaptarlas a escalas locales, permitiendo una mejor planificación en agricultura, recursos hídricos y gestión ambiental.

  • E

  • Extrapolación: es el proceso de aplicar un modelo (entrenado en una región o conjunto de datos) a situaciones, áreas o rangos de valores distintos de los usados en el entrenamiento. Puede resultar en predicciones poco confiables si el contexto es muy diferente.

  • F

  • Front-end (Desarrollo Web): es la parte de la aplicación o sitio web con la que el usuario interactúa directamente (la interfaz). Incluye el diseño, la maquetación y la lógica de la interfaz en el navegador (HTML, CSS, JavaScript, frameworks como React o Vue).

  • G

  • GCM (Global Climate Model): es un modelo matemático complejo que simula la dinámica de la atmósfera, los océanos y la superficie terrestre a escala global. Se usa para entender y predecir cómo el clima puede variar con el tiempo (décadas o siglos), considerando gases de efecto invernadero, albedo, entre otros factores.

  • Geoestadística: es una rama de la estadística especializada en el análisis y modelado de fenómenos espaciales. Emplea métodos como kriging y variogramas para describir cómo varían los datos en el espacio y para hacer predicciones en lugares no muestreados.

  • Geomática: integra métodos y tecnologías para la recolección, análisis y representación de información geográfica. Incluye cartografía, fotogrametría, teledetección, SIG, etc. Es esencial en estudios ambientales, planificación territorial y monitoreo de recursos naturales.

  • Geospatial Data Science (Ciencia de Datos Geoespaciales): aplica los principios de la ciencia de datos a la información con componente espacial (coordenadas geográficas, capas raster/vector). Combina teledetección, SIG, estadística y programación para responder a preguntas sobre dónde ocurren los fenómenos y por qué.

  • Google Earth Engine (GEE): es una plataforma en la nube de Google que brinda acceso a una enorme colección de datos satelitales (Landsat, Sentinel, MODIS, entre otros) y herramientas de procesamiento para analizarlos a escala global. Se puede programar principalmente con JavaScript o Python, y permite realizar estudios ambientales, de cambio de uso de suelo y más, sin descargar grandes volúmenes de datos localmente.

  • H

  • Hiperespectral: se refiere a sensores o imágenes que capturan decenas o cientos de bandas espectrales muy estrechas, cubriendo gran parte del espectro electromagnético (visible, infrarrojo cercano, etc.). Permite identificar materiales o especies con precisión, gracias a la firma espectral detallada.

  • I

  • Imagen Satelital: es la captura visual (o en otra parte del espectro electromagnético) de la superficie terrestre realizada por sensores a bordo de satélites. Estas imágenes pueden tener distintas resoluciones espaciales, espectrales y temporales, y se usan para monitorear cambios de cobertura, analizar desastres naturales, entre otros.

  • Índice Espectral: son combinaciones matemáticas de los valores de reflectancia en diferentes bandas espectrales (rojo, infrarrojo, etc.) que resaltan ciertas propiedades de la superficie, como la vegetación (NDVI), áreas quemadas (NBR) o la humedad.

  • Inteligencia Artificial (IA): es un campo de la computación que busca desarrollar sistemas capaces de realizar tareas que típicamente requieren inteligencia humana, como reconocer patrones, aprender de la experiencia y tomar decisiones. Es básicamente matemáticas y estadística, no es magia ni la solución a todos los problemas. Actualmente tiene muchas limitaciones, sobre todo aplicada al área ambiental, ya que es muy difícil predecir de manera muy precisa el comportamiento dinámico de la naturaleza y del clima. Además, para que esta funcione bien, se necesita una gran cantidad de datos y de buena calidad, lo cual es difícil de conseguir actualmente en el área ambiental. Además, para que el uso de la IA funcione bien, se necesitan expertos con años de experiencia en el uso de modelo predictivos de IA. Hoy en día el término "IA" es más una estrategia de marketing que una realidad, así que no te dejes engañar por las maravillas que te prometen.

  • Interpretabilidad de un Modelo: es el grado en que un humano puede entender cómo el modelo toma sus decisiones. Modelos complejos (redes neuronales profundas) tienden a ser “cajas negras”, mientras que modelos simples (regresión lineal) son más fáciles de interpretar.

  • Interpolación: consiste en estimar valores de una variable en puntos no muestreados dentro de la misma región donde sí se tienen datos. Se asume continuidad espacial (o temporal). Ejemplos incluyen métodos como Inverse Distance Weighting (IDW), kriging y splines.

  • L

  • Landsat: es un programa de observación de la Tierra (NASA y USGS) que consta de varios satélites (Landsat 5, 7, 8 y 9 son los más usados). Captura datos en diferentes bandas (visible, infrarrojo cercano, infrarrojo de onda corta, térmico). Tiene una resolución espacial de 30 m (15 m en la banda pancromática) y una resolución temporal de 16 días aprox. Sus datos gratuitos han sido clave para monitorear cambios de uso de suelo a nivel global por décadas.

  • LIDAR (Light Detection and Ranging): es una tecnología de teledetección que utiliza pulsos de luz láser para medir distancias. Un emisor láser envía pulsos a la superficie y mide el tiempo que tardan en regresar. Permite obtener nubes de puntos 3D de alta precisión, útiles para cartografía de detalle, silvicultura, arqueología, etc.

  • LLM (Large Language Model): es un modelo de IA (generalmente basado en redes neuronales profundas) entrenado con grandes cantidades de texto, capaz de generar respuestas coherentes, traducir, resumir y mantener conversaciones fluidas. Ejemplos: GPT, BERT.

  • M

  • Machine Learning: es un conjunto de métodos que permiten a las computadoras “aprender” patrones a partir de datos y hacer predicciones o clasificaciones sin ser programadas de forma explícita para cada tarea. Dentro de Machine Learning se incluyen algoritmos como árboles de decisión, Random Forest, XGBoost y redes neuronales, entre otros.

  • Métricas de Precisión: son indicadores numéricos que evalúan qué tan bien un modelo acierta en sus predicciones. Ejemplos: Accuracy, Precision, Recall, F1-score. Se usan en clasificación (p. ej. "spam" vs. "no spam") o reconocimiento de objetos.

  • Métricas de Error: cuantifican la diferencia entre los valores predichos por el modelo y los valores reales. Ejemplos: MSE (Mean Squared Error), RMSE (Root Mean Squared Error), MAE (Mean Absolute Error). Se usan para evaluar modelos de regresión y ver cuánto se alejan de la realidad.

  • Modelo Espacial Predictivo: es aquel que estima o pronostica valores de una variable (por ejemplo, presencia de una especie, concentración de un contaminante, humedad del suelo) a lo largo de un área geográfica. Para ello, utiliza datos espaciales (variables ambientales, climáticas, topográficas, etc.) y técnicas estadísticas o de machine learning. Requiere:
    1) Datos de alta calidad (sin sesgos y representativos);
    2) Conocimiento ecológico o del fenómeno que se modela (para elegir variables relevantes);
    3) Coherencia estadística (validar supuestos, evitar sobreajuste);
    4) Coherencia espacial (resultados que tengan sentido en el territorio).

  • Modelo (en IA / Estadística): es una representación matemática o computacional de una relación entre variables para describir, explicar o predecir un fenómeno. Un modelo es el resultado de aplicar ciertos algoritmos o métodos para “aprender” de datos y así representar una realidad o un fenómeno. El modelo puede luego ser usado para predecir o clasificar nueva información que no ha visto antes. Es común confundir "modelo" con "algoritmo". Un algoritmo es como una receta o un método sistemático. Define cómo se hacen las cosas: los pasos a seguir, de manera explícita y concreta.

  • MODIS (Moderate Resolution Imaging Spectroradiometer): es un sensor a bordo de los satélites Terra y Aqua de la NASA. Captura datos en 36 bandas espectrales con resoluciones espaciales de 250 m, 500 m y 1 km, según la banda. Ofrece imágenes de la Tierra casi a diario, lo que lo convierte en una herramienta esencial para el monitoreo global de vegetación, incendios forestales, dinámica de hielo marino, contaminación atmosférica y otros fenómenos ambientales. Sus datos son gratuitos y han sido clave en numerosos estudios científicos y de gestión de recursos naturales.

  • P

  • Pixel: (del inglés picture element) es la unidad mínima de una imagen digital. En los mapas satelitales y en el análisis de teledetección, cada píxel representa un área específica de la superficie terrestre (por ejemplo, 10 × 10 m, 30 × 30 m), y almacena valores de reflectancia o intensidad de la luz para diferentes bandas.

  • Python: es un lenguaje de programación de alto nivel muy utilizado en ciencia de datos, machine learning, desarrollo web y automatización. Es famoso por su sintaxis clara y por contar con numerosas librerías (NumPy, Pandas, scikit-learn, TensorFlow, etc.) para análisis de datos y IA.

  • R

  • R: es un lenguaje de programación y entorno de software enfocado en la estadística y la ciencia de datos. Se destaca por sus potentes librerías para el análisis estadístico (como tidymodels, dplyr, tidyr), visualización (ggplot2) y manejo de datos espaciales (sf, terra).

  • Random Forest: es un algoritmo de Machine Learning basado en la combinación de muchos árboles de decisión (ensamble). Cada árbol se entrena con una muestra aleatoria de los datos y con un subconjunto de variables, y luego se combinan sus resultados (promediando o tomando el voto mayoritario). Suele ser robusto y maneja bien datos ruidosos.

  • Raster: es un formato de datos donde la información se representa mediante una matriz de celdas (píxeles). Cada celda tiene un valor que puede representar la intensidad de la luz en distintas bandas (en el caso de imágenes satelitales), o cualquier variable continua (por ejemplo, precipitación, elevación). Extensiones comunes incluyen .tif, .nc, .hdr, etc.

  • Red Neuronal: (en inglés, Neural Network) es un algoritmo de Deep Learning, inspirado en la estructura del cerebro humano. Se compone de capas de “neuronas” conectadas, cada una realizando operaciones matemáticas para detectar patrones en los datos. Ejemplos:
    1) Redes Neuronales Artificiales (ANN): unas pocas capas ocultas;
    2) Redes Profundas (Deep Neural Networks): muchas capas (Deep Learning).

  • Resolución espacial: se refiere al tamaño del área terrestre que abarca cada píxel de una imagen (por ejemplo, 10 m, 30 m, 1 km). Una resolución más alta (píxeles más pequeños) ofrece mayor detalle, mientras que una resolución más baja es útil para estudios a gran escala.

  • Resolución espectral: se refiere al número y la anchura de las bandas del espectro electromagnético que un sensor capta. Un sensor multiespectral registra pocas bandas, mientras que uno hiperespectral registra decenas o cientos, lo que permite identificar con gran detalle distintos materiales o condiciones de la superficie.

  • Resolución radiométrica: es la capacidad de un sensor para distinguir diferencias en la intensidad de la energía que capta, es decir, cuántos niveles de brillo (bits) puede registrar. Por ejemplo, 8 bits son 256 niveles de gris, 16 bits son 65.536, etc.

  • Resolución temporal: se refiere a la frecuencia con la que un satélite u otro sensor captura imágenes de la misma zona. Por ejemplo, Landsat pasa cada 16 días, mientras que Sentinel-2 puede revisitar aproximadamente cada 5 días.

  • Significancia Estadística: indica la probabilidad de que el resultado obtenido no sea producto del azar, sino de un efecto real. A menudo se expresa con un valor p (p-value): un valor p muy pequeño (< 0.05) sugiere que la diferencia u observación es “estadísticamente significativa”.

  • S

  • SAR (Radar de Apertura Sintética): emite ondas de microondas y mide la retrodispersión que regresa tras interactuar con la superficie. A diferencia de la teledetección óptica, el SAR puede operar día y noche, y “ver” a través de nubes o niebla. Ejemplos: Sentinel-1, RADARSAT.

  • Sentinel-1: forma parte del Programa Copernicus de la Agencia Espacial Europea (ESA). Consta de satélites equipados con radar de apertura sintética (SAR), lo que permite obtener imágenes incluso de noche o bajo nubes.
    Características principales:
    1) Sensor: Radar (funciona de día y de noche, en condiciones nubladas);
    2) Resolución espacial: Varía (5 a 20 metros aprox.), según el modo de operación;
    3) Resolución temporal: De 6 a 12 días, dependiendo de la región y la combinación de satélites.

  • Sentinel-2: es otro componente del Programa Copernicus (ESA) y consta de dos satélites ópticos (Sentinel-2A y 2B) con sensores multiespectrales que capturan 13 bandas (visible, infrarrojo cercano, infrarrojo de onda corta).
    Características principales:
    1) Resolución espacial: 10, 20 y 60 m, según la banda;
    2) Resolución temporal: ~5 días (combinando 2 satélites, varía con la latitud);
    3) Aplicaciones: Monitoreo de vegetación, masas de agua, análisis de suelos, agricultura, etc.

  • Serie de tiempo: son secuencias de datos medidos en intervalos sucesivos (diarios, mensuales, anuales). Permiten identificar tendencias (ej. aumento de temperatura), patrones estacionales (picos de lluvia) y alimentar modelos que anticipen eventos futuros (sequías, brotes de plagas).

  • Sesgo: es cualquier tendencia o distorsión en la recolección, selección o interpretación de datos que produce resultados poco representativos de la realidad. Puede venir del muestreo, de supuestos erróneos, etc. Un conjunto de datos sesgado conduce a conclusiones falsas, y en IA significa que las predicciones serán poco confiables si no se corrige o atenúa.

  • SIG (Sistema de Información Geográfica, GIS en inglés): es un conjunto de herramientas y programas que permiten recolectar, almacenar, analizar y visualizar datos geográficos (con coordenadas reales). Facilitan la generación de mapas y el análisis espacial, combinando múltiples capas (por ejemplo, vegetación, clima, topografía).

  • Sobreajuste: ocurre cuando un modelo se entrena tanto con un conjunto de datos específico que memoriza sus peculiaridades y pierde la capacidad de generalizar. Esto se ve cuando el modelo tiene gran precisión en el entrenamiento, pero fracasa con datos nuevos.

  • T

  • Teledetección: consiste en obtener información de la superficie terrestre mediante sensores que no están en contacto directo con ella (por ej., satélites o drones). Captan la radiación reflejada o emitida por la Tierra (en el visible, infrarrojo, microondas, etc.) y la convierten en datos digitales para análisis.

  • V

  • Vector: en SIG, el formato vector representa datos geográficos con puntos, líneas o polígonos (por ejemplo, un río como línea, una parcela como polígono). Es útil para manejar entidades discretas (carreteras, límites, áreas protegidas). Extensiones comunes son .shp, .geojson, .gpkg, .kml, .kmz, etc.

  • X

  • XGBoost (Extreme Gradient Boosting): es un algoritmo de Machine Learning basado en la técnica de gradient boosting, donde se construyen árboles de decisión de manera secuencial para corregir errores de los árboles anteriores. Es muy popular por su alta eficiencia y rendimiento.