-
Notifications
You must be signed in to change notification settings - Fork 0
/
Copy pathPráctica.qmd
314 lines (235 loc) · 13 KB
/
Práctica.qmd
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220
221
222
223
224
225
226
227
228
229
230
231
232
233
234
235
236
237
238
239
240
241
242
243
244
245
246
247
248
249
250
251
252
253
254
255
256
257
258
259
260
261
262
263
264
265
266
267
268
269
270
271
272
273
274
275
276
277
278
279
280
281
282
283
284
285
286
287
288
289
290
291
292
293
294
295
296
297
298
299
300
301
302
303
304
305
306
307
308
309
310
311
312
313
314
---
title: "Práctica EPH"
subtitle: "Núcleo de Innovación Social & RLadies Buenos Aires"
author: "Betsy Cohen & Andrea Gómez Vargas"
date: "2023-09-07"
format:
html:
df-print: kable
---
# Ejercicios de Práctica
En este taller vamos a aprender a:
1. Cargar los datos directamente desde nuestra consola de R usando el paquete `{eph}`
2. Manipularlos usando `dplyr` de `{tidyverse}` para observar indicadores básicos de trabajo
3. Construir una tabla usando la librería de gramática de tablas `{gt}`
> [Descarga la práctica guiada en .Rmd](https://drive.google.com/drive/folders/1lWlTc6u-uhUWE5VcuCQRysoSNDmV5HGi?usp=sharing)
# Antes de arrancar
Para poder trabajar ordenadamente te recomendamos:
Tener instaladas las librerías que vamos a usar con la función `install.packages()`: `{tidyerse}`,`{gt}`,`{gtExtras}`, `{Janitor}` & `{eph}`
```{r echo=TRUE, message=FALSE, warning=FALSE}
# install.packages("tidyverse")
# install.packages("gt")
# install.packages("gtExtras")
# install.packages("janitor")
# install.packages("eph")
```
Una buena práctica siempre que trabajes con **encuestas** es tener a mano:
- Los cuestionarios (te van a permitir entender bien la estructura y pases)
- [El registro de diseño](https://www.indec.gob.ar/ftp/cuadros/menusuperior/eph/EPH_registro_1T2022.pdf): donde tenes la referencia del código de pregunta, estructura y en caso que corresponda las categorías posibles que tiene que adoptar.
- Definiciones operacionales que realiza INDEC sobre condición de actividad, subocupación horaria y categoría ocupacional disponible [aquí](https://www.indec.gob.ar/ftp/cuadros/menusuperior/eph/EPH_Conceptos.pdf)
## Setup librerías
El primer paso es llamar a las librerías que vamos a usar que por lo general siempre las colocamos al principio de nuestro script
```{r message=FALSE, warning=FALSE}
library(tidyverse) # para manipular los datos
library(eph) # para levantar los datos de la encuesta
library(janitor) # nos permite limpiar y acomodar facilmente los nombres de las variables (entre otras cosas)
library(gt) # para hermosear nuestras tablas
library(gtExtras) # para hermosear todavía más nuestras tablas
```
# Obtener datos
Vamos a arrancar descargando los datos con la función `get_microdata()`. En este caso vamos a descargar los resultados de la base de individuos del primer trimestre de 2022. Si quisieramos especificar una serie de variables en particular con las cuales vamos a trabajar
> TIP: Para revisar los parámetros de una función siempre podemos consultar la la ayuda de R posicionándonos sobre la función y presionando la tecla F1.
```{r getdata}
ind_2023_1 <- get_microdata(
year = 2023,
period = 1,
type = "individual",
vars = "all")
```
En caso que no quieras o puedas usar este paquete podes descargar las bases de microdatos en el sitio del indec en la sección Bases de datos y descargar [EPH continua](https://www.indec.gob.ar/indec/web/Institucional-Indec-BasesDeDatos)
Vamos a reproducir la tabla 1.1 del [Informe de Mercado de trabajo del primer trimestre 2023](https://www.indec.gob.ar/uploads/informesdeprensa/mercado_trabajo_eph_1trim234267B9F5D1.pdf):
# Definiciones Básicas
Antes de cálcular los indicadores tengamos en cuenta las siguientes definiciones de lo que vamos a calcular:
- **Población:** es el total de unidades al que expande la muestra.
- **Población Ocupada:** conjunto de personas que tienen por lo menos una ocupación
- **Población Desocupada:** personas que, no teniendo ocupación, están buscando activamente trabajo y están disponibles para trabajar.
- **Población Economicamente Activa**(PEA): la integran las personas que tienen una ocupación o que, sin tenerla, la están buscando activamente. Está compuesta por la población ocupada más la población desocupada.
- **Población Ocupada demandante de empleo:** población ocupada que busca activamente otra ocupación.
- **Población Subocupada:** se refiere a la subocupación por insuficiencia de horas, visible u horaria, y comprende a las personas ocupadas que trabajan menos de 35 horas semanales por causas involuntarias y que están dispuestas a trabajar más horas.
- **Población Subocupada demandante**: población subocupada (por causas involuntarias y dispuesta a trabajar más horas) que además busca activamente otra ocupación.
- **Población Subocupada no demandante**: población subocupada (por causas involuntarias y dispuesta a trabajar más horas) que no está en la búsqueda activa de otra ocupación.
> Tanto la ocupación como la desocupación constituyen lo que se denomina **condición de actividad** que define la situación en que se encuentran las personas con respecto a su participación o no en la actividad económica.
# Manos al código
Primero creamos una tabla con los siguientes indicadores de resumen (tomamos de base las definiciones mencionadas anteriormente):
- Población
- Ocupados
- Desocupados
- Población Economicamente Activa (PEA)
- Ocupados demandantes
- Subocupados (demandantes, no demandantes y total)
Estos niveles nos van a permitir calcular las tasas de forma sencilla.
> Para obtener cualquier tasa necesitamos crear un numerador y un denominador. Por ejemplo: $\text{Tasa de empleo = } Ocupados/Población$.
Al ser una muestra en la EPH trabajamos con el total expandido por su ponderador, en este caso lo encontramos en la variable **PONDERA**.
## Variables de la Base EPH
Para hacer la tabla vamos a trabajar con las siguientes variables de la base EPH:
- PONDERA: Es el factor de expansión para cada unidad de análisis
- ESTADO: Indica la condición de actividad y puede tomar los valores:
- 0 = Entrevista individual no realizada (no respuesta al cuestionario individual)
- 1 = Ocupado
- 2 = Desocupado
- 3 = Inactivo
- 4 = Menor de 10 años
- PP03J: Es la pregunta: *Aparte de este/os trabajo/s, ¿estuvo buscando algún empleo / ocupación /actividad?*, que toma los valores:
- 1 = Sí
- 2 = No
- 9 = Ns/Nr
- INTENSI: Refiere a la intensidad de la carga horaria laboral y cuyas categorías son:
- 1 = Subocupado por insuficiencia horaria
- 2 = Ocupado pleno
- 3 = Sobreocupado
- 4 = Ocupado que no trabajó en la semana
- 9 = Ns/Nr
# Tabla resumen
Con la función `summarise` del paquete `{tidyerse}` podemos realizar distintas operaciones de resumen sobre las variables de nuestro análisis con la base que estamos trabajando:
```{r}
tabla_1 <- ind_2023_1 |>
summarise(Poblacion = sum(PONDERA),
Ocupacion = sum(PONDERA[ESTADO == 1]),
Desocupacion = sum(PONDERA[ESTADO == 2]),
PEA = Ocupacion + Desocupacion,
Ocupacion_demandate = sum(PONDERA[ESTADO == 1 & PP03J ==1]),
Suboc_demandante = sum(PONDERA[ESTADO == 1 & INTENSI ==1 & PP03J==1]),
Suboc_no_demand = sum(PONDERA[ESTADO == 1 & INTENSI ==1 & PP03J %in% c(2,9)]),
Subocupacion = Suboc_demandante + Suboc_no_demand)
tabla_1
```
Ahora vamos a calcular las tasas creando una serie de nuevas columnas, usando la función `mutate`
```{r}
tabla_1 <- tabla_1 |>
mutate('Actividad' = PEA/Poblacion,
'Empleo' = Ocupacion/Poblacion,
'Desocupación' = Desocupacion/PEA,
'Ocupación demandante' = Ocupacion_demandate/PEA,
'Subocupación' = Subocupacion/PEA,
'Subocupación demandante' = Suboc_demandante/PEA,
'Subocupación no demandante' = Suboc_no_demand/PEA)
tabla_1
```
Y ahora nos vamos a quedar solamente con las variables de las tasas seleccionándolas con la función `select`
```{r}
tabla_1 <- tabla_1 |>
select(Actividad:'Subocupación no demandante') |>
mutate(ANO4 = 2023,
TRIMESTRE = 1) |>
relocate(c(ANO4,TRIMESTRE), .before = 'Actividad')
tabla_1
```
Ahora repetimos la operación con lo datos de 2022
```{r}
# obtener los datos
ind_2022 <- get_microdata(
year = 2022,
period = c(1:4), # le decimos que traiga todos
type = "individual",
vars = "all")
tabla_2 <- ind_2022 |>
group_by(ANO4,TRIMESTRE) |>
summarise(Poblacion = sum(PONDERA),
Ocupacion = sum(PONDERA[ESTADO == 1]),
Desocupacion = sum(PONDERA[ESTADO == 2]),
PEA = Ocupacion + Desocupacion,
Ocupacion_demandate = sum(PONDERA[ESTADO == 1 & PP03J ==1]),
Suboc_demandante = sum(PONDERA[ESTADO == 1 & INTENSI ==1 & PP03J==1]),
Suboc_no_demand = sum(PONDERA[ESTADO == 1 & INTENSI ==1 & PP03J %in% c(2,9)]),
Subocupacion = Suboc_demandante + Suboc_no_demand) |>
mutate('Actividad' = PEA/Poblacion,
'Empleo' = Ocupacion/Poblacion,
'Desocupación' = Desocupacion/PEA,
'Ocupación demandante' = Ocupacion_demandate/PEA,
'Subocupación' = Subocupacion/PEA,
'Subocupación demandante' = Suboc_demandante/PEA,
'Subocupación no demandante' = Suboc_no_demand/PEA) |>
select(ANO4,TRIMESTRE,Actividad:'Subocupación no demandante') |>
as_tibble()
tabla_2
```
Unimos ambas tablas usando la función `bind_rows`
```{r}
tabla_3 <- bind_rows(tabla_1,tabla_2)
tabla_3
```
Ya tenemos los datos que necesitamos pero parece que la tabla estuviera "acostada". Para que se ponga de pie o estire a lo largo vamos a usar la función `pivot_longer`
```{r}
tabla_3 <- tabla_3 |>
pivot_longer(cols = -c(ANO4,TRIMESTRE), #Las columnas que queremos estirar en este caso son todas excepto el año y el trimestre
names_to = "Tasas", # El nombre que le queremos poner
values_to = "Valor") # el valor en cuestión que hay que repartir
tabla_3
```
Vamos multiplicar por 100 el valor de la tasa ya que por lo general se expresa de esta forma, el cual redondeamos a un decimal.
```{r}
tabla_3 <- tabla_3 |>
mutate(Valor = round(Valor*100,1))
tabla_3
```
Ahora vamos a crear una variable que combina el año y trimestre, desechando año y trimestre como variables por separado y vamos a "estirar" la tabla colocando al 1er trimestre de 2021 al final, tal cual se presenta en el reporte de INDEC
```{r}
#('Actividad','Empleo','Desocupación','Ocupación demandante','Subocupación','Subocupación demandante','Subocupación no demandante')
tabla_3 <- tabla_3 |>
mutate(ano_trimestre = paste(ANO4,TRIMESTRE)) |> # creamos la variable que concatena las etiquetas año y trimestre
select(-c(ANO4,TRIMESTRE)) |> # eliminamos las variables originales de año y trimestre
pivot_wider(names_from = c("ano_trimestre"), values_from = Valor) |> # estiramos la variable que creamos
relocate("2023 1",.after = "2022 4" ) # ubicamos al 1er trimestre de 2023 al final de la tabla
tabla_3
```
> Las funciones `pivot_longer` y `pivot_wider` nos ayudan a estirar y alargar los datos para saber más sobre ellas te recomendamos la lectura de [esta viñeta](https://tidyr.tidyverse.org/articles/pivot.html) donde vas a encontrar varios ejemplos.
# Comunicación del dato
Ahora vamos a darle un poco de estilo y color con el paquete de "gramática de tablas" `{gt}`
```{r message=FALSE, warning=FALSE}
tabla_4 <- tabla_3 |>
gt() |>
# ponemos un título y subtitulo
tab_header(
title = md("**Principales tasas del mercado de trabajo. Total 31 aglomerados urbanos.**"),
subtitle = "Primer trimestre 2022-primer trimestre 2023") |>
# Elegimos una tipografía y tamaños
opt_table_font(
font = list(
google_font(name = "Montserrat"),
labels = list(
title = list(weight = "bold", size = 9),
header = list(weight = "bold", size = 8),
footnote = list(weight = "bold", size = 8),
source = list(weight = "bold", size = 8)
)
)
) |>
# centramos las columnas del cuerpo
cols_align(
align = "center",
columns = 2:6
) |>
# creamos una cabecera que agrupe cada año
gt::tab_spanner(
label = "2022",
columns = starts_with("2022")
) |>
gt::tab_spanner(
label = "2023",
columns = starts_with("2023")
) |>
# cambiamos las etiquetas de las columnas
cols_label("2022 1" = "1er Trimestre",
"2022 2" = "2do Trimestre",
"2022 3" = "3er Trimestre",
"2022 4" = "4to Trimestre",
"2023 1" = "1er Trimestre") |>
#agregamos un pié con la fuente y una aclaración indicando que nuestros datos están ponderados
tab_source_note('Fuente: INDEC, Encuesta Permanente de Hogares.') |>
tab_footnote("Datos ponderados.")
tabla_4
```
# Licencia
Este taller está a disposición del público bajo licencias de código abierto. Toda la documentación y los materiales publicados están disponibles bajo una licencia **CC BY-SA-NC**.
A continuación, puedes leer más sobre la [licencia de Creative Commons Reconocimiento-NoComercial-CompartirIgual 4.0 Internacional](https://creativecommons.org/licenses/by-nc-sa/4.0/).
![Licencia de Creative Commons](https://i.creativecommons.org/l/by-nc-sa/4.0/88x31.png){width="20%" fig-align="left"}