Numpy : como hacerlo para principiantes y expertos

26/05/2025

★★★★★Valoración: 3.11 (1183 votos)

NumPy (Numerical Python) es una biblioteca fundamental en Python para la computación científica y el análisis de datos. Proporciona estructuras de datos potentes, especialmente el objeto ndarray ( n-dimensional array), que permite trabajar con matrices multidimensionales de forma eficiente. Su amplio conjunto de funciones matemáticas optimizadas lo convierte en una herramienta indispensable para cualquier científico de datos o ingeniero.

Temario

Historia de NumPy
Características Principales de NumPy
La Estructura de Datos ndarray
Limitaciones de NumPy
Ejemplos Prácticos con NumPy
Trabajando con NumPy y Pandas

Historia de NumPy

NumPy no surgió de la nada. Su desarrollo se remonta a Numeric, una biblioteca creada por Jim Hugunin. Posteriormente, Travis Oliphant integró características de Numarray en Numeric, dando lugar a NumPy 0 en 200Desde entonces, ha experimentado un crecimiento continuo, gracias a su naturaleza de código abierto y a la colaboración de una gran comunidad.

Características Principales de NumPy

La fuerza de NumPy reside en su capacidad para:

Manejar matrices multidimensionales: El ndarray es la clave. Permite representar datos en una variedad de dimensiones (1D, 2D, 3D, etc.), facilitando la gestión de imágenes, datos sensoriales, y mucho más.
Operaciones vectorizadas: NumPy realiza operaciones sobre matrices enteras, sin necesidad de iterar elemento por elemento. Esto incrementa significativamente la velocidad de procesamiento.
Funciones matemáticas de alto nivel: Ofrece una amplia gama de funciones para realizar cálculos matemáticos, estadísticos y de álgebra lineal, optimizadas para la eficiencia.
Interoperabilidad: Se integra fácilmente con otras bibliotecas de Python, como Pandas y SciPy, para crear flujos de trabajo de análisis de datos completos.
Integración con OpenCV: La biblioteca de visión por computadora OpenCV utiliza matrices NumPy para el manejo de imágenes, lo que facilita el procesamiento de imágenes digitales.

La Estructura de Datos ndarray

El ndarray es el corazón de NumPy. Sus características clave son:

Homogeneidad: Todos los elementos de un ndarray deben ser del mismo tipo de dato (enteros, flotantes, etc.).
Tamaño fijo: Una vez creado, el tamaño de un ndarray no puede cambiar fácilmente. Para modificar su tamaño, se deben crear nuevas matrices.
Vistas de memoria: Las operaciones de indexado y slicing a menudo crean vistas del ndarray original, en lugar de copias. Esto optimiza el uso de memoria, pero hay que tener cuidado al modificarlas, ya que se reflejan en la matriz original.

Limitaciones de NumPy

A pesar de sus ventajas, NumPy tiene algunas limitaciones:

Inserción/eliminación de elementos: Insertar o eliminar elementos en un ndarray no es tan directo como en las listas de Python. Es necesario crear nuevas matrices.
Algoritmos no vectorizados: Los algoritmos que no pueden vectorizarse pueden ser lentos si se implementan en Python puro. Se requieren técnicas como la compilación Just-in-time (JIT) para optimizarlos.
Complejidad de la memoria: Algunas operaciones vectorizadas pueden aumentar la complejidad de memoria de constante a lineal, debido a la creación de matrices temporales.

Ejemplos Prácticos con NumPy

Creación de matrices

Crear matrices con NumPy es sencillo:

import numpy as npx = np.array([1, 2, 3])y = np.arange(10) # Similar a range(10), pero devuelve un ndarray

Operaciones básicas

a = np.array([1, 2, 3, 6])b = np.linspace(0, 2, 4) # Crea un vector con 4 puntos equiespaciados entre 0 y 2c = a - bprint(c) # Resultado: [33333333 66666667 ]print(a  2) # Eleva al cuadrado cada elemento de a

Funciones universales (ufuncs)

NumPy proporciona funciones universales que operan elemento a elemento sobre matrices:

a = np.linspace(-np.pi, np.pi, 100)b = np.sin(a)c = np.cos(a)

Álgebra lineal

from numpy.random import randfrom numpy.linalg import solve, inva = np.array([[1, 2, 3], [3, 4, 7], [5, 0, 5]])b = np.array([3, 2, 1])x = solve(a, b) # Resuelve la ecuación ax = bprint(x)print(inv(a)) # Inversa de la matriz a

Manipulación de Tensores

M = np.zeros(shape=(2, 3, 5, 7, 11))T = np.transpose(M, (4, 2, 1, 3, 0)) # Transpone el tensorprint(T.shape)

Comparación: Algoritmo iterativo vs. Vectorizado

Veamos la diferencia en rendimiento al calcular la distancia euclidiana más cercana entre un punto y un conjunto de puntos. A continuación una tabla comparativa:

Método	Código	Rendimiento
Iterativo (Python puro)	`... (código iterativo) ...`	Lento para grandes conjuntos de datos
Vectorizado ( NumPy )	`minIdx = np.argmin(np.linalg.norm(points - qPoint, axis=1))`	Mucho más rápido para grandes conjuntos de datos

El código vectorizado de NumPy es considerablemente más eficiente para conjuntos de datos grandes.

Trabajando con NumPy y Pandas

NumPy y Pandas se complementan. Pandas utiliza NumPy internamente para su eficiencia. Es común convertir entre ndarrays y DataFrames de Pandas.

NumPy es una herramienta poderosa y versátil para el análisis de datos en Python. Su eficiencia, funciones matemáticas y fácil integración con otras bibliotecas lo convierten en una parte esencial del arsenal de cualquier científico de datos. Esta tutorial ha cubierto los aspectos fundamentales, pero la exploración continua te permitirá dominar sus capacidades avanzadas.

Si quieres conocer otros artículos parecidos a Numpy : como hacerlo para principiantes y expertos puedes visitar la categoría Libros y Librerías.