Python para análisis de datos – pandas

Python | El análisis de datos usando pandas : En este tutorial, vamos a aprender sobre el análisis de datos utilizando pandas , que es una fuente de la biblioteca de construcción abierta en la parte superior de NumPy.

pandas

  • pandas es una biblioteca de código abierto construido encima de NumPy
  • Permite análisis class rápido y los datos de la limpieza y preparación
  • Se destaca en el rendimiento y la productividad
  • También tiene incorporado en la visualización características
  • puede trabajar con datos de una amplia variedad de fuentes

Como instalar pandas?

Uso de PIP

(venv) -bash-4.2$ pip install pandas
Requirement already satisfied: pandas in ./venv/lib/python3.6/site-packages (0.25.1)
Requirement already satisfied: python-dateutil>=2.6.1 in ./venv/lib/python3.6/site-packages (from pandas) (2.8.0)
Requirement already satisfied: pytz>=2017.2 in ./venv/lib/python3.6/site-packages (from pandas) (2019.2)
Requirement already satisfied: numpy>=1.13.3 in ./venv/lib/python3.6/site-packages (from pandas) (1.17.2)
Requirement already satisfied: six>=1.5 in ./venv/lib/python3.6/site-packages (from python-dateutil>=2.6.1->pandas) (1.12.0)
venv) -bash-4.2$

Series

ndarray unidimensional

con el eje etiquetas, incluyendo series de tiempo . Es capaz de almacenar datos de cualquier tipo. Las etiquetas de los ejes se conocen colectivamente como un índice. Serie es muy similar a una matriz NumPy, construida sobre NumPy matriz de objetos. Sin embargo, con la diferencia de una serie puede ser indexado por las etiquetas.

Sintaxis:

class pandas.Series(
data=None,
index=None, dtype=None,
name=None,
copy=False,
fastpath=False
)

continuación de fragmentos se muestran ejemplos de la creación de una serie,

import numpy as np
import pandas as pd
labels = ['a','e','i','o'] #python list
data = [1,2,3,4] #python list
arr = np.array(data) #NumPy array
d = {'a':1,'b':2,'c':3} #python dict
# creating a series object with default index
print(pd.Series(data = data))
# creating a series object with labels as index
print(pd.Series(data = data, index = labels))
# creating a series with NumPy array
print(pd.Series(arr,index = labels))
# creating a series with dictionary,
# here the key becomes the index
print(pd.Series(d))
# Series can also hold built-in func
print(pd.Series(data = [sum, print, len]))

salida

0    1
1 2
2 3
3 4
dtype: int64
a 1
e 2
i 3
o 4
dtype: int64
a 1
e 2
i 3
o 4
dtype: int64
a 1
b 2
c 3
dtype: int64
0 <built-in function sum>
1 <built-in function print>
2 <built-in function len>
dtype: object

Las operaciones en serie

Cree dos series se oponen

import pandas as pd
ser1 = pd.Series([1,2,3,4],['Delhi','Bangalore','Mysore', 'Pune'])
print(ser1)
ser2 = pd.Series([1,2,5,4],['Delhi','Bangalore','Vizag','Pune'])
print(ser2)

Delhi        1
Bangalore 2
Mysore 3
Pune 4
dtype: int64
Delhi 1
Bangalore 2
Vizag 5
Pune 4
dtype: int64

para recuperar la información de la serie, es similar al diccionario pitón, pase de salida en el índice de etiqueta del tipo de datos determinado. En el ejemplo anterior, la etiqueta de índice es de tipo String.

print(ser1['Delhi'])
# Output: 1

Ahora vamos tratando de añadir las dos series,

print(ser1+ser2)
'''
Output:
Bangalore 4.0
Delhi 2.0
Mysore NaN
Pune 8.0
Vizag NaN
dtype: float64
'''

El pandas , añade los valores del índice de etiquetas. En for no se encuentra el partido, se puso un (valor case) NaN. Cuando las operaciones se realizan en serie o cualquier objeto basado NumPy / pandas, los enteros se convertirán a null.


Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *