generated from jazz07/ProyectoEstadistica
-
Notifications
You must be signed in to change notification settings - Fork 0
/
Copy pathProyectoEFinal.Rmd
472 lines (361 loc) · 13.8 KB
/
ProyectoEFinal.Rmd
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220
221
222
223
224
225
226
227
228
229
230
231
232
233
234
235
236
237
238
239
240
241
242
243
244
245
246
247
248
249
250
251
252
253
254
255
256
257
258
259
260
261
262
263
264
265
266
267
268
269
270
271
272
273
274
275
276
277
278
279
280
281
282
283
284
285
286
287
288
289
290
291
292
293
294
295
296
297
298
299
300
301
302
303
304
305
306
307
308
309
310
311
312
313
314
315
316
317
318
319
320
321
322
323
324
325
326
327
328
329
330
331
332
333
334
335
336
337
338
339
340
341
342
343
344
345
346
347
348
349
350
351
352
353
354
355
356
357
358
359
360
361
362
363
364
365
366
367
368
369
370
371
372
373
374
375
376
377
378
379
380
381
382
383
384
385
386
387
388
389
390
391
392
393
394
395
396
397
398
399
400
401
402
403
404
405
406
407
408
409
410
411
412
413
414
415
416
417
418
419
420
421
422
423
424
425
426
427
428
429
430
431
432
433
434
435
436
437
438
439
440
441
442
443
444
445
446
447
448
449
450
451
452
453
---
title: "ProyectoFinal"
author: "Mariana López y Jazmin Guzmán"
date: "1/6/2021"
output: word_document
---
# Proyecto Final
```{r}
lectura <- read.csv("HabitoLeer.csv")
```
Esto seria para leerlo al estar guardado en una carpeta, pero ya esta subido en github y aquí por esoo no lo hacemos así:
lectura <- read.csv("C:/Users/1/Desktop/Estadistica 2/Estadistica 2/Proyecto/HabitoLeer.csv")
```{r}
require(stats)
library (corrplot)
library(ggplot2)
library(dplyr)
library(tidyverse)
library(lubridate)
library(fpp2)
```
## 1
Explorando los datos
```{r}
summary(lectura)
```
### Tenemos distintas variables sin embargo los unicos enteros son la edad y la cantidad de libros leidos al año.
## 2
Promedio de libros al año
```{r}
summary(lectura$How.many.books.did.you.read.during.last.12months.)
```
```{r}
hist(lectura$How.many.books.did.you.read.during.last.12months.,col="lightblue")
medialib <- mean(lectura$How.many.books.did.you.read.during.last.12months.)
abline(v=medialib,col="blue")
medianlib <- median(lectura$How.many.books.did.you.read.during.last.12months.)
abline(v=medianlib,col="red")
```
### Respuesta. La media de libros leidos por año es de 16.68 y una mediana de 6 (de rojo), siendo más confiable la mediana en este tipo de casos porque hay un sesgo hacia la derecha en los datos.
## Pregunta 3.
Si existe alguna diferencia entre hombres y mujeres y la cantidad de libros leidos durante todo el año.
H0: No hay diferencia, hombres = mujeres
H1: Existe una diferencia, hombres =/= mujeres
```{r}
boxplot(lectura$How.many.books.did.you.read.during.last.12months. ~ lectura$Sex, col=c("orange","green"))
```
```{r}
t.test(lectura$How.many.books.did.you.read.during.last.12months.~lectura$Sex, alternative = "two.sided")
```
```{r}
5.147e-13 < 0.05
```
### Respuesta.
H1: Existe una diferencia, hombres =/= mujeres
https://elpais.com/cultura/2020/02/21/actualidad/1582288090_293986.html
## pregunta 4
¿La edad influye en la cantidad de libros leidos durante todo el año?
Ho. no es relevante por que dependerá más de factores como el tiempo.
H1. si es relevante por que en base la edad se va incrementando la cantidad de libros leídos.
```{r}
plot(lectura$How.many.books.did.you.read.during.last.12months., lectura$Age,col="blue",main="Correlacion",xlab="Cantidad de libros x año",ylab="Edad")
model <- lm(lectura$Age ~ lectura$How.many.books.did.you.read.during.last.12months.)
abline(model,col="red")
```
```{r}
cor(lectura$How.many.books.did.you.read.during.last.12months., lectura$Age)
```
### Respuesta. No influye la edad de la persona en la cantidad de libros leidos al año.
https://www.inegi.org.mx/contenidos/saladeprensa/boletines/2020/EstSociodemo/MOLEC2019_04.pdf
## pregunta 5
¿Una persona con empleo lee más que una desempleada?
Ho. No por que depende mas del tiempo que la persona tenga. (no hay relacion empleado = desempleado)
H1. Si por que por razones laborales puede incrementar su lista de libros leídos. (hay relacion empleado =/= desempleado)
```{r}
ggplot(data = lectura, aes(x= Employement , y= How.many.books.did.you.read.during.last.12months., color= Employement))+ geom_boxplot()+theme_bw()
```
```{r}
anova <- aov(lectura$How.many.books.did.you.read.during.last.12months.~lectura$Employement)
summary(anova)
```
```{r}
0.000325 < 0
```
### Respuesta. Si existe diferencia entre alguno de los grupos segun tengan empleo o no.
https://pruebat.org/Inicio/ConSesion/Breves/verBreve/1404-por-que-cada-vez-hay-menos-lectores
## pregunta 6
¿Los ingresos son factor importante en el consumo de libros?
Ho. No ya que podemos consumir libros de manera digital o bien libros en otras fuentes. (variables independientes)
H1. Si puesto que no se pueden adquirir todos los libros deseados sin tener ingresos suficientes. (variables dependientes)
```{r}
tab <- table(lectura$Incomes, lectura$Read.any.e.books.during.last.12months., dnn = c("Si leyo libros durante el año","Ingresos"))
tab
```
### Se ve que quienes tienen un ingreso de 100,00 por debajo de 150,000 dijeron haber leido algun libro al año diferencia que se contrapone con los que ganan menos de 10,000. Por tanto, desde aquí nos damos cuenta que los ingresos si son factor importante.
```{r}
mosaicplot(tab, main = deparse("Relacion entre leer libros y los ingresos"), color = c("orange","red","yellow","violet"))
```
```{r}
chisq.test(tab)
```
```{r}
2.2e-16 < 0.05
```
### Respuesta. Los ingresos si son un factor importante para el consumo de libros.
https://www.comunidadbaratz.com/blog/6-de-cada-10-personas-prefieren-leer-libros-en-papel/
## pregunta 7
¿Los audio libros son frecuentados por jovenes o personas mayores?
Ho. Por ambos de una manera equitativa.
H1. Por facilidad de uso y manejo asi que por personas mayores.
```{r}
tabLec <- table(lectura$Age, lectura$Read.any.audiobooks.during.last.12months., dnn = c("Edad","Respuesta si escucho algun audio libro en el a;o"))
tabLec
```
```{r}
AgeAudB<- split(lectura$Age,lectura$Read.any.audiobooks.during.last.12months.)
hist(AgeAudB$Yes, col = "yellow")
mediaAudB <- mean(AgeAudB$Yes)
abline(v=mediaAudB,col="blue")
medianAudB <- median(AgeAudB$Yes)
abline(v=medianAudB,col="red")
```
```{r}
mediaAudB
```
```{r}
medianAudB
```
### Respuesta. Por personas mayores, segun nuestro grafico por personas entre los cuarenta y sesenta años mayoritariamente. Por tanto se rechaza la hipotesis nula, no hay equidad entre las edades y el hecho de escuchar audiolibros.
https://computerhoy.com/noticias/industria/quien-lee-mejor-dicho-escucha-audiolibros-espana-405851
## Pregunta 8.
De acuerdo a la pregunta anterior, habra normalidad en esos datos?
H0. Hay normalidad en los datos.
H1. No hay normalidad (existe sesgo).
```{r}
shapiro.test(AgeAudB$Yes)
```
```{r}
1.02e-05 < 0.05
```
### Respuesta 2. Al buscar si hay normalidad en estos datos, nos damos cuenta que no la hay. Existe un sesgo hacia la derecha, señalando una mayoria de este lado, lo que quiere decir es que las personas que dijeron que si escuchan audiolibros son de edades despues de los 40 en su mayoria. Aunque hay una baja significativa despues de los 60s. Por lo tanto, se rechaza la hipotesis nula.
## pregunta 9.
Existe alguna diferencia entre los libros leidos de los casados con los solteros, y los divorciados?
H0. No hay diferencia
H1. Si hay diferencia en la media de cada grupo
```{r}
ggplot(data = lectura, aes(x= Marital.status. , y= How.many.books.did.you.read.during.last.12months., color= Marital.status.))+ geom_boxplot()+theme_bw()
```
```{r}
anova <- aov(lectura$How.many.books.did.you.read.during.last.12months.~lectura$Marital.status.)
summary(anova)
```
```{r}
0.221 < 0.05
```
### Respuesta.
se rechaza la hipotesis nula por que si existe una diferencia entre los lectores y su estado civil.
https://www.cronista.com/informacion-gral/Los-hombres-y-mujeres-casados-leen-menos-que-los-solteros-20120424-0052.html
## pregunta 10.
Influye el nivel educativo con respecto a si una persona lee o no?.
H0. No influye, hay equidad en los grupos.
H1. Si influye, hay diferencia segun sea el nivel educativo.
```{r}
ggplot(data = lectura, aes(x= Education , y= How.many.books.did.you.read.during.last.12months., color= Education))+ geom_boxplot()+theme_bw()
```
```{r}
anova2 <- aov(lectura$How.many.books.did.you.read.during.last.12months.~lectura$Education)
summary(anova2)
```
```{r}
2e-16 < 0
```
### Respuesta.
Rechazamos la hipotesis nula y tomamos H1 por que si existe diferencia segun sea el nivel educativo.
https://www.inegi.org.mx/contenidos/saladeprensa/boletines/2020/EstSociodemo/MOLEC2019_04.pdf
http://scielo.sld.cu/scielo.php?script=sci_arttext&pid=S2218-36202018000300180#:~:text=Por%20grupos%20de%20edad%20las,por%20conocer%20sobre%20alg%C3%BAn%20tema.
## Pregunta 11.
Los hombres leen mas el periodico que las mujeres?. Existe diferencia?
H0. No hay diferencia, la lectura de periodicos es independiente del genero
H1. Si hay diferencia
```{r}
tabGen <- table(lectura$Sex, lectura$Do.you.happen.to.read.any.daily.news.or.newspapers., dnn = c("Lectura de periodicos","genero"))
tabGen
```
```{r}
mosaicplot(tabGen, main = deparse("Relacion entre la lectura de periodicos y el genero"), color = c("yellow","violet"))
```
```{r}
chisq.test(tabGen)
```
```{r}
0.04675 < 0.05
```
### Respuesta.
No rechazamos H0 ya que no hay diferencia, la lectura de periodicos es independiente del genero.
https://www.merca20.com/el-37-por-ciento-de-las-personas-que-tienen-entre-25-a-34-lee-mas-el-periodico/
### Pregunta 12
¿Existe una diferencia en el habito de leer segun la etnia de la persona?
H0. No hay diferencia
H1. Existe una diferencia
```{r}
ggplot(data = lectura, aes(x= Race , y= How.many.books.did.you.read.during.last.12months., color= Race))+ geom_boxplot()+theme_bw()
```
```{r}
anova3 <- aov(lectura$How.many.books.did.you.read.during.last.12months.~lectura$Race)
summary(anova3)
```
```{r}
2e-07 < 0
```
### Respuesta.
Se afirma h1 por que si existe una diferencia. Se rechaza h0.
https://revistasum.umanizales.edu.co/ojs/index.php/plumillaeducativa/article/view/1962/2625
##pregunta 13
¿la edad es un factor importante en la lectura de revistas o diarios?
```{r}
tabMg <- table(lectura$Age, lectura$Do.you.happen.to.read.any.magazines.or.journals., dnn = c("Edad","Revistas o Diarios"))
tabMg
```
```{r}
AgeRev<- split(lectura$Age,lectura$Do.you.happen.to.read.any.magazines.or.journals.)
hist(AgeRev$Yes, col = "orange")
mediaRev <- mean(AgeRev$Yes)
abline(v=mediaRev,col="blue")
medianRev <- median(AgeRev$Yes)
abline(v=medianRev,col="green")
```
```{r}
mediaRev
```
```{r}
medianRev
```
//según lo que encontre los jovenes leen más que los ancianos asi que no es un factor importante tambien. aqui te dejo el link de igual forma
https://lapiedradesisifo.com/2016/04/27/los-millennials-leen-mas-que-los-mayores-de-30-anos/
##pregunta 14
¿Según el tipo de empleo de la persona aumenta el consumo de los libros electronicos?
Ho= Son variables independientes una de la otra
(no hay relacion)
H1 = no son variables independientes (si hay relacion)
```{r}
tabE <- table(lectura$Employement, lectura$Read.any.e.books.during.last.12months., dnn = c("Eboks","Empleo"))
tabE
```
```{r}
mosaicplot(tabE, main = deparse("Relacion entre leer libros electronicos y el empleo"), color = c("lightblue","pink","yellow","violet"))
```
### Se puede apreciar que hay mayor consumo de libros electronicos en personas que tienen un empleo a tiempo completo, asi que suponemos esto se debe a las facilidades que adquisicion de este tipo o modalidad de libros.
```{r}
chisq.test(tabE)
```
```{r}
5.428e-12 < 0.05
```
### Respuesta. De acuerdo a lo que se puede ver en el grafico y la prueba de chi cuadrado, podermos decir que el consumo de libros electronicos si esta relacionado con el estatus de empleo que se tenga; por lo tanto se rechaza la hipotesis nula. Respondiendo a nuestra pregunta principal tenemos: segun lo encontrado lo prefieren por la comodidad. adjunto link
http://www.revistaespacios.com/a18v39n43/a18v39n43p36.pdf
##pregunta 15
¿en base a la edad las personas prefieren leer solamente noticias en periodicos o diarios?
```{r}
tabP <- table(lectura$Age, lectura$Do.you.happen.to.read.any.daily.news.or.newspapers., dnn = c("Edad","Revistas o Diarios"))
tabP
```
```{r}
AgePer<- split(lectura$Age,lectura$Do.you.happen.to.read.any.daily.news.or.newspapers.)
hist(AgePer$Yes, col = "pink")
mediaPer <- mean(AgePer$Yes)
abline(v=mediaPer,col="blue")
medianPer <- median(AgePer$Yes)
abline(v=medianPer,col="red")
```
```{r}
mediaPer
```
```{r}
medianPer
```
### Respuesta. por comodiad tambien.
https://www.larepublica.co/internet-economy/siete-de-cada-10-colombianos-aun-prefiere-leer-los-periodicos-impresos-2364096
## Serie de tiempo de las reseñas de los libros más vendidos de amazon desde el 2009 al 2020
```{r}
AmazonBooks <- read.csv("AmazonBooks - Sheet1.csv")
```
```{r}
best2 = ts(AmazonBooks$Reviews, start = 2009, end = 2020, frequency = 12)
best2
```
```{r}
autoplot(best2)+
labs(title = "Serie de tiempo",
x = "Reseñas",
y = "dato",
colour = "#00a0dc")
theme_bw()
```
### Segun lo que podemos ver en la grafica hubo un periodo de mayor intesidad con respecto a las reseñas en el año 2012, y otro en el 2018, sin embargo los otros años se mantuvo de alguna forma estable y algo bajo el numero de reseñas escritas en Amazon.
## Descomposicion de serie de tiempo
```{r}
D <- decompose(best2, type = 'additive')
autoplot(D)+
labs(title= "Descomposicion de la serie de tiempo",
x= "tiempo",
y = "dato",
colour = "Gears")+
theme_bw()
```
### Tendencia
```{r}
autoplot(best2, series="Serie tiempo") +
autolayer(trendcycle(D), series="Tendencia") +
labs(title = "Serie de tiempo",
x = "Tiempo",
y = "Valor"
) +
theme_bw()
```
### Para ver estacionalidad
```{r}
ggseasonplot(best2)
```
## Pronostico de la Serie de Tiempo
### Método holt winters
```{r}
# elaborando el pronostico
most <- hw(best2, h=24, seasonal = 'additive')
```
```{r}
# graficando el pronóstico
autoplot(most)
```
```{r}
# verificando el ajuste del método
autoplot(most)+autolayer(fitted(most), series="Ajuste")
```
```{r}
# verificando los residuales
checkresiduals(most)
```
### Método Arima
```{r}
# elaborando el modelo ARIMA
modeloAr <- auto.arima(best2)
```
```{r}
# elaborando el pronostico
most2 <- forecast(modeloAr, h=24)
```
```{r}
# graficando el pronóstico
autoplot(most2)
```
```{r}
# verificando el ajuste del método
autoplot(most2)+autolayer(fitted(most2), series="Ajuste")
```
```{r}
# verificando los residuales
checkresiduals(most2)
```
##adjuntamos links sobre el porque amazon hace reseñas sobre sus productos.
https://sellercentral.amazon.com.mx/gp/help/external/201972160?language=es_MX&ref=efph_201972160_cont_201972140#:~:text=Amazon%20muestra%20las%20rese%C3%B1as%20de,hora%20de%20comprar%20un%20producto.
https://sellercentral.amazon.es/gp/help/external/201972160?language=es_ES&ref=efph_201972160_cont_201972140