Tutorial de Python Pandas: Marco de datos, Rango de fechas, Slice

¿Qué es Pandas?

Pandas es una biblioteca de código abierto que permite realizar la manipulación de datos en Python. La biblioteca Pandas está construida en la parte superior de Numpy, lo que significa que Pandas necesita Numpy para operar. Los pandas proporcionan una manera fácil de crear, manipular y discutir los datos. Pandas es también una solución elegante para datos de series temporales.

En esta guía, aprenderá:

¿Por qué usar Pandas?

Los científicos de datos utilizan Pandas por sus siguientes ventajas:

  • Gestiona fácilmente los datos que faltan
  • Utiliza Series para estructura de datos unidimensional y DataFrame para estructura de datos multidimensional
  • Proporciona una forma eficiente de cortar los datos
  • Proporciona una forma flexible de combinar, concatenar o cambiar la forma de los datos
  • Incluye una potente herramienta de series temporales para trabajar con

En pocas palabras, Pandas es una biblioteca útil en el análisis de datos. Se puede utilizar para realizar manipulación y análisis de datos. Los pandas proporcionan estructuras de datos potentes y fáciles de usar, así como los medios para realizar operaciones rápidamente en estas estructuras.

¿Cómo instalar Pandas?

Para instalar la biblioteca Pandas, consulte nuestro tutorial Cómo instalar TensorFlow. Pandas está instalado de forma predeterminada. En caso remoto, pandas no instalados-

Puede instalar Pandas usando:

  • Anaconda: conda install -c anaconda pandas
  • En Jupyter Notebook:

¿Qué es un marco de datos?

Un marco de datos es una matriz bidimensional, con ejes etiquetados (filas y columnas). Un marco de datos es una forma estándar de almacenar datos.

El marco de datos es bien conocido por los estadísticos y otros profesionales de los datos. Un marco de datos es un dato tabular, con filas para almacenar la información y columnas para nombrar la información. Por ejemplo, el precio puede ser el nombre de una columna y 2,3,4 los valores del precio.

Debajo de una imagen de un marco de datos Pandas:

¿Qué es una serie?

Una serie es una estructura de datos unidimensional. Puede tener cualquier estructura de datos como integer, float y string. Es útil cuando se desea realizar el cálculo o devolver una matriz unidimensional. Una serie, por definición, no puede tener varias columnas. Para este último caso, utilice la estructura del marco de datos.

La serie tiene un parámetro:

  • Datos: puede ser una lista, diccionario o valor escalar

Puede agregar el índice con índice. Ayuda a nombrar las filas. La longitud debe ser igual al tamaño de la columna

A continuación, crea una serie Pandas con un valor que falta para las terceras filas. Tenga en cuenta que los valores que faltan en Python se observan “NaN”. Puede usar numpy para crear el valor que falta: np.nan artificialmente

Salida

Crear marco de datos

Puede convertir una matriz numpy en un marco de datos pandas con PD.Data frame (). Lo contrario también es posible. Para convertir un marco de datos pandas en una matriz, puede usar np.array ()

También puede usar un diccionario para crear un marco de datos de Pandas.

Edad Nombre
0 30 John
1 40 Smith

Datos de rango

Los pandas tienen una API conveniente para crear un rango de fechas

pd.data_range (fecha, período, frecuencia):

  • El primer parámetro es la fecha de inicio
  • El segundo parámetro es el número de períodos (opcional si se especifica la fecha de finalización)
  • El último parámetro es la frecuencia: día: ‘D, ‘mes:’ M ‘y año:’ Y’

Salida

Salida

Inspección de datos

Puede comprobar la cabeza o la cola del conjunto de datos con head () o tail () precedida por el nombre del marco de datos del panda

Paso 1) Crear una secuencia aleatoria con numpy. La secuencia tiene 4 columnas y 6 filas

Paso 2) A continuación, crea un marco de datos utilizando pandas.

Utilice dates_m como índice para el marco de datos. Significa que a cada fila se le dará un “nombre” o un índice, correspondiente a una fecha.

Finalmente, se le da un nombre a las 4 columnas con las columnas de argumento

Paso 3) Uso de la función de cabeza

A B C D
2030-01-31 1.139433 1.318510 -0.181334 1.615822
2030-02-28 -0.081995 -0.063582 0.857751 -0.527374
2030-03-31 -0.519179 0.080984 -1.454334 1.314947

Paso 4) Uso de la función de cola

A B C D
2030-04-30 -0.685448 -0.011736 0.622172 0.104993
2030-05-31 -0.935888 -0.731787 -0.558729 0.768774
2030-06-30 1.096981 0.949180 -0.196901 -0.471556

Paso 5) Una excelente práctica para obtener una pista sobre los datos es usar describe (). Proporciona los recuentos, media, std, min, max y percentil del conjunto de datos.

A B C D
contar 6.000000 6.000000 6.000000 6.000000
media 0.002317 0.256928 -0.151896 0.467601
std 0.908145 0.746939 0.834664 0.908910
mín. -0.935888 -0.731787 -1.454334 -0.527374
25% -0.643880 -0.050621 -0.468272 -0.327419
50% -0.300587 0.034624 -0.189118 0.436883
75% 0.802237 0.732131 0.421296 1.178404
max 1.139433 1.318510 0.857751 1.615822

Datos del sector

El último punto de este tutorial es sobre cómo cortar un marco de datos pandas.

Puede utilizar el nombre de columna para extraer datos de una columna determinada.

Para seleccionar varias columnas, debe usar dos veces el corchete, [[..,..]]

El primer par de corchetes significa que desea seleccionar columnas, el segundo par de corchetes indica qué columnas desea devolver.

A B
2030-01-31 -0.168655 0.587590
2030-02-28 0.689585 0.998266
2030-03-31 0.767534 -0.940617
2030-04-30 0.557299 0.507350
2030-05-31 -1.547836 1.276558
2030-06-30 0.511551 1.572085

Puede cortar las filas con:

El siguiente código devuelve las tres primeras filas

A B C D
2030-01-31 -0.168655 0.587590 0.572301 -0.031827
2030-02-28 0.689585 0.998266 1.164690 0.475975
2030-03-31 0.767534 -0.940617 0.227255 -0.341532

La función loc se utiliza para seleccionar columnas por nombres. Como de costumbre, los valores antes del coma representan las filas y después se refieren a la columna. Debe usar los corchetes para seleccionar más de una columna.

A B
2030-01-31 -0.168655 0.587590
2030-02-28 0.689585 0.998266
2030-03-31 0.767534 -0.940617
2030-04-30 0.557299 0.507350
2030-05-31 -1.547836 1.276558
2030-06-30 0.511551 1.572085

Hay otro método para seleccionar varias filas y columnas en Pandas. Puede usar iloc []. Este método utiliza el índice en lugar del nombre de las columnas. El siguiente código devuelve el mismo marco de datos que el anterior

A B
2030-01-31 -0.168655 0.587590
2030-02-28 0.689585 0.998266
2030-03-31 0.767534 -0.940617
2030-04-30 0.557299 0.507350
2030-05-31 -1.547836 1.276558
2030-06-30 0.511551 1.572085

Coltar una columna

Puede soltar columnas usando pd.drop ()

B D
2030-01-31 0.587590 -0.031827
2030-02-28 0.998266 0.475975
2030-03-31 -0.940617 -0.341532
2030-04-30 0.507350 -0.296035
2030-05-31 1.276558 0.523017
2030-06-30 1.572085 -0.594772

Concatenación

Puede concatenar dos DataFrame en Pandas. Puede usar pd.concat ()

En primer lugar, debe crear dos DataFrams. Hasta ahora, ya está familiarizado con la creación de marcos de datos

Finalmente, concatenar los dos DataFrame

Edad nombre
0 25 John
1 30 Smith
2 50 Paul
3 26 Adam
4 11 Smith

Drop_Duplicates

Si un conjunto de datos puede contener duplicados uso de información, drop_duplicates es un fácil de excluir filas duplicadas. Puede ver que df_concat tiene una observación duplicada, Smith aparece dos veces en la columna `name. “.

Edad nombre
0 25 John
1 30 Smith
2 50 Paul
3 26 Adam

Ordenar valores

Puede ordenar el valor con sort_values

 

Edad nombre
4 11 Smith
0 25 John
3 26 Adam
1 30 Smith
2 50 Paul

Renombrar: cambio de índice

Puede usar renombrar para cambiar el nombre de una columna en Pandas. El primer valor es el nombre de columna actual y el segundo valor es el nuevo nombre de columna.

Age_ppl apellido
0 25 John
1 30 Smith
2 50 Paul
3 26 Adam
4 11 Smith

Resumen

A continuación se muestra un resumen del método más útil para la ciencia de datos con Pandas

importar datos read_csv
crear serie serie
Crear marco de datos de marco de datos
Crear rango de fechas date_range
cabeza de retorno cabeza
cola de retorno cola
Describir describir
corte usando el nombre nombre_datos [‘nombre_columna’]
Cortar usando filas data_name [0:5]
0 replies

Leave a Reply

Want to join the discussion?
Feel free to contribute!

Leave a Reply

Your email address will not be published. Required fields are marked *