-
Notifications
You must be signed in to change notification settings - Fork 0
/
Copy pathdataclean.py
77 lines (65 loc) · 3.35 KB
/
dataclean.py
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
import pandas as pd
from logg import log
datalake = []
datacine=[]
class data_clean:
"""Esta clase contiene las funciones donde se extraerán las categorías de interés de los tres principales archivos """
def extract_museo():
log.info('Extrayendo categorías de Museo')
data = pd.read_csv('museos/2022-julio/museos-24-07-2022.csv')
df_transform = pd.DataFrame()
df_transform.insert(0, 'cod_localidad', data['Cod_Loc'].astype(str))
df_transform.insert(1, 'id_provincia', data['IdProvincia'])
df_transform.insert(2, 'id_departamento', data['IdDepartamento'])
df_transform.insert(3, 'categoria', data['categoria'])
df_transform.insert(4, 'provincia', data['provincia'])
df_transform.insert(5, 'localidad', data['localidad'])
df_transform.insert(6, 'nombre', data['nombre'])
df_transform.insert(7, 'domicilio', data['direccion'])
df_transform.insert(8, 'codigo_postal', data['CP'])
df_transform.insert(9, 'numero_telefono', data['telefono'])
df_transform.insert(10, 'mail', data['Mail'])
df_transform.insert(11, 'web', data['Web'])
datalake.append(df_transform)
def extract_cine():
log.info('Extrayendo categorías de Cine')
data = pd.read_csv('cines/2022-julio/cines-24-07-2022.csv')
cine = data
df_transform = pd.DataFrame()
df_transform.insert(0, 'cod_localidad', data['Cod_Loc'].astype(str))
df_transform.insert(1, 'id_provincia', data['IdProvincia'])
df_transform.insert(2, 'id_departamento', data['IdDepartamento'])
df_transform.insert(3, 'categoria', data['Categoría'])
df_transform.insert(4, 'provincia', data['Provincia'])
df_transform.insert(5, 'localidad', data['Localidad'])
df_transform.insert(6, 'nombre', data['Nombre'])
df_transform.insert(7, 'domicilio', data['Dirección'])
df_transform.insert(8, 'codigo_postal', data['CP'])
df_transform.insert(9, 'numero_telefono', data['Teléfono'])
df_transform.insert(10, 'mail', data['Mail'])
df_transform.insert(11, 'web', data['Web'])
datalake.append(df_transform)
datacine.append(data)
def extract_bibliotecas():
log.info('Extrayendo categorías de bibliotecas')
data = pd.read_csv('bibliotecas/2022-julio/bibliotecas-24-07-2022.csv')
df_transform = pd.DataFrame()
df_transform.insert(0, 'cod_localidad', data['Cod_Loc'].astype(str))
df_transform.insert(1, 'id_provincia', data['IdProvincia'])
df_transform.insert(2, 'id_departamento', data['IdDepartamento'])
df_transform.insert(3, 'categoria', data['Categoría'])
df_transform.insert(4, 'provincia', data['Provincia'])
df_transform.insert(5, 'localidad', data['Localidad'])
df_transform.insert(6, 'nombre', data['Nombre'])
df_transform.insert(7, 'domicilio', data['Domicilio'])
df_transform.insert(8, 'codigo_postal', data['CP'])
df_transform.insert(9, 'numero_telefono', data['Teléfono'])
df_transform.insert(10, 'mail', data['Mail'])
df_transform.insert(11, 'web', data['Web'])
datalake.append(df_transform)
log.info('Transformación de datos en proceso')
dc = data_clean
dc.extract_museo()
dc.extract_cine()
dc.extract_bibliotecas()
log.info('Extración y limpieza de datos terminada')