Muestrear no es pecado
  • Blog
  • About
  • Resources
    • R Weekly
    • R Bloggers
    • Datanalytics
  • Archivo
Categories
All (120)
2019 (10)
2020 (18)
2021 (22)
2022 (18)
2023 (18)
2024 (19)
2025 (12)
AWS (1)
C++ (2)
Comunidad (1)
Data Science (1)
Estadística (5)
Explicatividad (1)
Humor (1)
IA (1)
Inferencia causal (2)
Investigación operativa (2)
Julia (6)
ML (1)
MLJ (1)
Marketing (2)
Neovim (1)
R (42)
R python (1)
Rust (1)
S3 (1)
Stan (1)
agile (2)
amistad (1)
análisis bayesiano (18)
api (2)
aws (1)
big data (5)
bigdata (1)
brms (1)
cachitos (13)
catboost (1)
categóricas (1)
causal inference (7)
ciencia de datos (14)
correspondencias (2)
curro (1)
docker (2)
empresas (2)
encuestas (1)
encuestas electorales (3)
estadística (69)
estadísticca (1)
factorial (3)
factorización (2)
full luxury bayes (2)
gis (1)
gráficos (2)
h2o (4)
imputación (1)
inferencia causal (1)
linux (15)
machine learning (4)
mlr3 (1)
modelos mixtos (5)
muestreo (7)
news (1)
nmf (1)
numpyro (1)
obviedades (1)
ocr (14)
pensamientos (1)
polémica (16)
produccion (1)
python (9)
quarto (1)
r (2)
ranger (1)
rock (1)
scikit-learn (1)
shiny (1)
sociología (1)
software (2)
spark (1)
spss (1)
sql (1)
textmining (13)
tidymodels (3)
tiempos modernos (3)
webr (1)
Álgebra (1)
árboles (1)

Series

Cachitos nochevieja

Post relacionados con extracción de imágenes y análisis de subtítulos de “cachitos nochevieja”

Julia

Post relacionados Julia

Todos los posts

Así, si.

estadística
ciencia de datos
2025
Da gusto estar en un sitio en dónde das con gente sensata y que sabe más que uno.
May 21, 2025
1 min

Submuestrear sigue siendo pecado.Ejemplo

estadística
muestreo
2025
El post anterior a este no vale para mucho, puesto que Harrell tenía razón (as usual). Gracias a Carlos Gil que me avisaba de que había algo raro en mi post.
May 16, 2025
5 min

Submuestrear (a veces) no es pecado.Ejemplo

estadística
muestreo
2025
En un post anterior comentaba que submuestrear si es pecado. En este post vengo a contar algo así como un contraejemplo a mi mismo. O más bien, podríamos decir aquello de…
May 11, 2025
7 min

Área de Aplicación

Data Science
Estadística
ML
2025
Este puente he estado leyendo sobre AOA (area of applicability) . En el artículo de Hanna Mayer y Edzer Pebesma se centran en él área de aplicación de un modelo cuando se…
May 4, 2025
4 min

¿Para qué usar scikit-learn si puedes reinventarlo mal en tres sprints?

Humor
IA
2025
Llegas al nuevo curro. Proyecto de scoring para clientes. Negocio necesita resultados “rápido pero bien”. Preguntas cómo se entrena un modelo. Silencio incómodo. Finalmente…
Apr 30, 2025
3 min

Submuestrear si es pecado

estadística
muestreo
2025
Aunque el título de este blog es Muestrear no es pecado, hoy quiero comentar brevemente algo que creo que si no es pecado, se acerca bastante. Se trata del submuestreo.
Mar 22, 2025
2 min

AUC en SQL. Dos formas

estadística
2025
En post de auc-wilcoxon-de-nuevo ya comenté sobre la relación entre el auc-wilcoxon-de-nuevo y también sobre una definición alternativa del AUC como la probabilidad de que…
Mar 15, 2025
4 min

Error irreducible

estadística
pensamientos
obviedades
2025
A pesar de todo el hype de la IA y del Machín Lenin hay una cosa muy obvia que se le olvida a la mayoría de la gente, y es el error irreducible.
Feb 24, 2025
3 min

Trucos. Parte 1. Submodel trick

estadística
tidymodels
2025
El otro día atendí a un webminar junto con Aitor en el que se hablaba de algunos truquillos del tidymodels.
Feb 9, 2025
9 min

Cachitos 2024. Tercera parte

estadística
polémica
2025
textmining
ocr
linux
cachitos
esta
Jan 8, 2025
21 min

Cachitos 2024. Segunda parte

estadística
polémica
2025
textmining
ocr
linux
cachitos
Una vez que ya hemos visto en la entrada anterior como extraer los rótulos, vamos a juntarlos todos en un sólo csv y hacer algo de limpieza.
Jan 4, 2025
4 min

Cachitos 2024. Primera parte

estadística
polémica
2025
textmining
ocr
linux
cachitos
Como todos los años toca hacer el análisis de de los subtítulos de Nochevieja a Cachitos
Jan 3, 2025
6 min

Tooling

2024
tidymodels
mlr3
MLJ
scikit-learn
Me comentaba el otro día mi amigo Mario, que por culpa del “tooling” en lo que antes tardaba 2 horas ahora se tira 2 semanas.
Dec 29, 2024
2 min

Orbital.¿Ayuda en entornos hostiles?

2024
tidymodels
sql
machine learning
R
No es raro encontrarse en entornos hostiles. Los que usamos R lo sabemos bien, es una batalla constante, que en gran parte tiene que ver con el desconocimiento y otras con…
Nov 16, 2024
5 min

El bueno, el feo y el bayesiano

2024
Inferencia causal
análisis bayesiano
R
Cuenta Matheus Facure Alves en este capítulo de Causal Inference for the Brave and True que hay buenos y malos controles en esto de la inferencia causal. Y no le falta…
Sep 19, 2024
18 min

 

Predictores a nivel de grupo e inferencia causal

2024
Inferencia causal
análisis bayesiano
R
En una entrada de mi blog anterior comentaba una de las fortalezas de los modelos mixtos vs los clásicos, y es la posibilidad de incluir predictores a nivel de grupo.
Aug 29, 2024
3 min

Meta-análisis. Agregando encuestas II

2024
muestreo
encuestas electorales
análisis bayesiano
Supongo que se trata de reminiscencias de los tiempos en que curraba en Córdoba, con mi jefe y amigo “el Truji”, pero de vez en cuando me gusta asomarme a las encuestas de…
Jun 8, 2024
9 min

MMM. Estilo compadre

2024
Marketing
análisis bayesiano
R
He de reconocer que mi conocimiento sobre lo que se ha dado en llamar el Marketing/Media Mix Modelling es más bien escaso por no decir que inexistente. No obstante, una…
Jun 1, 2024
21 min

MMM. Estilo compadre

2024
Marketing
análisis bayesiano
R
He de reconocer que mi conocimiento sobre lo que se ha dado en llamar el Marketing/Media Mix Modelling es más bien escaso por no decir que inexistente. No obstante, una…
Jun 1, 2024
21 min

Ensalada no saludable

2024
inferencia causal
full luxury bayes
análisis bayesiano
R
Este es el primero de varios posts que más que contenido propio es simplemente comentar lo leído en el blog de Richard McElreath, y en particular los 3 posts que me abrieron…
May 2, 2024
6 min

Métricas modelo con quarto y h2o

2024
quarto
h2o
Como muchos sabréis soy bastante fan de usar h2o en modelización. H2O se integra muy bien con R, Python o con Spark. De hecho , gracias a mi insistencia y conocimiento de…
Apr 20, 2024
3 min

Ya vendrán tiempos mejores

2024
amistad
rock
“Ya vendrán tiempos mejores, dónde no habrá que llorar. Que nos envuelva la risa y brindaremos en un bar”
Apr 12, 2024
2 min

Lujuria e intervención

2024
estadística
full luxury bayes
análisis bayesiano
R
Cuenta Richard McElreath en sus vídeos de Statistical Rethinking que la inferencia causal no es más que predecir la intervención. Una de las cosas que más me llamó la…
Mar 31, 2024
8 min

Jornadas Hispalenses

2024
estadística
R
R tiene un color especial
Mar 18, 2024
2 min

 

Nomenclatura

2024
estadística
tiempos modernos
A mis cuarenta y pocos tacos, como decía Sabina. El título de la entrada tiene que ver con algo que me llamó la atención de cuando empecé a currar en cosas de estas del Big…
Feb 24, 2024
1 min

 

Guarnición de guerra

2024
curro
Se conoce como guarnición a las tropas que protegen y están destinadas en un palacio, un castillo, un fuerte, un buque de guerra o una zona o región, por ejemplo.
Feb 16, 2024
3 min

quarto-nvim

Neovim

2024
linux
Neovim
Pues me ha dado por aprender cosas de vim, y en particular de Neovim. La verdad es que me está gustando bastante. Os dejo una serie de enlaces
Jan 13, 2024
2 min

Cachitos 2023. Cuarta parte. The python way

estadística
polémica
2024
textmining
ocr
linux
python
cachitos
Vamos ya con la última entrada del cachitos de este año. Están de moda los LLM’s y demás, por el momento no estoy pagando ChatGpt ni ningún otro, quizá lo haga en el futuro…
Jan 9, 2024
2 min

Cachitos 2023. Tercera parte

estadística
polémica
2024
textmining
ocr
linux
cachitos
Vamos ya con la penúltima entrada del cachitos de este año. Las anteriores, las tenemos en esta y esta otra
Jan 8, 2024
16 min

Cachitos 2023. Segunda parte

estadística
polémica
2024
textmining
ocr
linux
cachitos
Una vez que ya hemos visto en la entrada anterior como extraer los rótulos, vamos a juntarlos todos en un sólo csv y hacer algo de limpieza.
Jan 4, 2024
4 min

Cachitos 2023. Primera parte

estadística
polémica
2024
textmining
ocr
linux
cachitos
Como todos los años toca hacer el análisis de de los subtítulos de Nochevieja a Cachitos
Jan 2, 2024
7 min

 

Web-R

r
2023
webr
Hay nueva tecnología, usar R dentro de la web. ¡Dale a Run Code!
Dec 17, 2023
2 min

 

Shinylive-r

r
2023
shiny
Están saliendo cosas como webr que permiten ejecutar R en el navegador que junto con shinylive nos van a permitir hacer aplicaciones de Shiny (en R y en Python) que sean…
Dec 16, 2023
4 min

 

Vuelta a la facultad. SVD

2023
R
Álgebra
Unos compis del trabajo están haciendo cosas muy chulas utilizando SVD (Descomposición en valores singulares) y me ha recordado a los tiempos de la universidad.
Dec 3, 2023
4 min

XIII Jornadas de R. Barcelona

2023
R
Comunidad
Salvo en 2010 he ido a todas las jornadas de R que se han celebrado en España. Que han sido en:
Nov 19, 2023
3 min

 

Shinylive-python

python
2023
Ayer asistí a una charla de David Durey en el grupo de R-madrid. Era sobre como migraron de Tableau a Shiny y fue una charla excepcional, gracias David.
Sep 29, 2023
2 min

¿Y si … ? Parte III

2023
estadística
causal inference
Ya estuve hablando anteriormente de los Metalearners o como se diga aquí y aquí. Pero ahora vamos a ver si lo utilizamos en unos datos reales.
Sep 9, 2023
18 min

Pyrotecnia. Full luxury bayes con numpyro

python
2023
numpyro
análisis bayesiano
Ahora que va a salir el tan esperado Tutorial de numpyro creo que es momento de empezar una serie de post sobre lo que estoy aprendiendo con numpyro
Jul 27, 2023
8 min

Meta-análisis. Agregando encuestas

muestreo
2023
encuestas electorales
análisis bayesiano
Ya en 2022 os mostraba uno de los ingredientes principales de la cocina electoral, al menos de la tradicional, no de la postmoderna Alaminos-Tezanos.
Jul 22, 2023
13 min

Categóricas a lo catboost. Pensamientos

Estadística
categóricas
R
catboost
2023
La gente de Yandex es gente lista y son los que están detrás de catboost. Ya el pasado mes de Abril conté como hacían la regresión cuantil y obtenían estimación de varios…
Jun 9, 2023
10 min

Mapeando

Estadística
gis
R
2023
Siempre me ha gustado el tema de los Sistemas de información geográfica y derivados. Ya cuando trabajaba en el IESA fui a un curso en Vigo sobre gvSIG y luego aprendí cosas…
May 6, 2023
6 min

Regresión cuantil a lo machín lenin con catboost

Estadística
machine learning
R
2023
Hay veces, más de las que se cree, en que nos interesa estimar un cuantil en vez de la media. Si tenemos una variable dependinte \(y\) y una o varias independientes \(X\)…
Apr 23, 2023
5 min

Conformal prediction. Estilo compadre

Estadística
R
2023
El jueves pasado asistí al más que recomendable meetup de PyData Madrid, que cuenta entre sus organizadores con el gran Juan Luis Cano Rodríguez, antiguo compañero mío de…
Mar 26, 2023
9 min

Arrow y S3

big data
R
C++
S3
AWS
2023
Apache Arrow está de moda, permite trabajar de forma muy rápida con ficheros parquet por ejemplo, está escrito en C++, aunque también hay implementación en Rust, de hecho la…
Feb 19, 2023
4 min

Explicatividad no usual

estadística
ranger
Explicatividad
2023
Buscando en el portátil sobre otras cosas me he encontrado un pequeño ejercicio para implementar la idea que se comenta aquí
Jan 29, 2023
13 min

Una regresión de poisson, plagiando a Carlos

estadística
brms
análisis bayesiano
2023
Me llamó la atención ayer el excelente post de Carlos sobre regresión de poisson casi trivival con numpyro y le dije que iba a ver si podía replicarlo usando brms u otra…
Jan 21, 2023
10 min

Cachitos 2022. Tercera parte

estadística
polémica
2023
textmining
ocr
linux
cachitos
Vamos ya con la última entrada del cachitos de este año. Las anteriores, las tenemos en esta y esta otra
Jan 4, 2023
13 min

Cachitos 2022. Segunda parte

estadística
polémica
2023
textmining
ocr
linux
cachitos
Una vez que ya hemos visto en la entrada anterior como extraer los rótulos, vamos a juntarlos todos en un sólo csv y hacer algo de limpieza.
Jan 3, 2023
3 min

Cachitos 2022. Primera parte

estadística
polémica
2023
textmining
ocr
linux
cachitos
Retomando la entrada de cachitos de la nochevieja de 2020
Jan 2, 2023
3 min

Consejos para dejar spss

estadística
sociología
2022
spss
R
Estuve del 23 al 25 de Noviembre en las Jornadas de R en Córdoba, y como siempre, me lo pasé estupendamente. Resulta que a la misma vez se celebraba el congreso andaluz de…
Dec 4, 2022
7 min

 

Api y docker con R. parte 2

api
docker
R
2022
En la entrada de api y docker con R parte I veíamos que es muy fácil construir una api y dockerizarla para tener un modelo bayesiano en producción. Pero hay un pequeño…
Oct 30, 2022
14 min

 

Leaflet example

library(leaflet)

m <- leaflet() %>%
  addTiles() %>%  # Add default OpenStreetMap map tiles
  addMarkers(lng=174.768, lat=-36.852, popup="The birthplace of R")
m  # Print…
Oct 29, 2022
1 min

Aquí estoy de nuevo

news
Estoy cambiando el blog de blogdown a quarto Welcome!
Oct 27, 2022
1 min

 

Sigo trasteando con julia

Julia
produccion
linux
2022
Siguiendo con lo que contaba aquí me he construido un binario para predecir usando un modelo de xgboost con Julia. La ventaja es que tengo un tar.gz que puedo descomprimir…
Oct 26, 2022
4 min

Api y docker con R. parte 1

docker
R
api
2022
Todo el mundo anda haciendo apis para poner modelos en producción, y oye, está bien. Si además lo complementas con dockerizarlo para tener un entorno controlado y que te…
Oct 12, 2022
37 min

 

Veeelooosidad

R
python
C++
Rust
2022
No, este post no va sobre la canción de Medina Azahara sino de comparar un par de librerías para lectura y procesamiento de datos. A saber, polars escrita en Rust y con api…
Sep 18, 2022
5 min

Indios y jefes, IO al servicio del mal.

estadística
Investigación operativa
R
2022
Voy a poner un ejemplo de como utilizar solvers para investigación operativa dentro de R.
Aug 1, 2022
48 min

 

Palabras para Julia (Parte 4 /n). Predicción con Turing

Julia
análisis bayesiano
2022
En Palabras para Julia parte 3 hablaba de modelos bayesianos con Turing.jl, y me quedé con una espinita clavada, que era la de poder predecir de forma relativamente fácil…
Jul 1, 2022
17 min

IO Parte 1

estadística
python
R
Investigación operativa
Julia
2022
Allá por el año 1997 más o menos andaba yo estudiando Investigación Operativa en la Universidad de Granada. Recuerdo aprender el archiconocido algoritmo del simplex y algo…
Jun 21, 2022
8 min

No mentirás

estadística
machine learning
python
R
2022
Hay veces que uno se deja llevar por la emoción cuando hace algo y a veces se exagera un poco con lo que hace tu criatura.
May 29, 2022
5 min

 

Transparente

agile
empresas
2022
El otro día le decía a mis compañeros que hay cosas que no entiendo de la jerga del mundillo en el que nos movemos, (para echar unas risas ver el video de Pantomima Full) .
Apr 10, 2022
2 min

Palabras para Julia ( Parte 3/n)

Julia
R
Stan
análisis bayesiano
2022
Tengo una relación extraña con Julia, por un lado me gusta bastante y por otro me parece que aún le falta algo para que lo adopte de forma más seria. Quizá tenga que ver con…
Mar 20, 2022
10 min

Mediator. Full luxury bayes

análisis bayesiano
estadística
causal inference
R
2022
Continuando con la serie sobre cosas de inferencia causal y full luxury bayes, antes de que empiece mi amigo Carlos Gil, y dónde seguramente se aprenderá más.
Feb 12, 2022
7 min

Collider Bias?

análisis bayesiano
R
causal inference
estadística
2022
Continuando con temas del post anterior. Dice Pearl, con buen criterio, que si condicionas por un collider abres ese camino causal y creas una relación espuria entre las dos…
Feb 9, 2022
7 min

Pluralista

estadística
R
2022
Ando viendo los vídeos de Richard McElreath , Statistical Rethinking 2022 y ciertamente me están gustando mucho. En la segunda edición de su libro hace hincapié en temas de…
Feb 6, 2022
8 min

Cachitos. Tercera parte

estadística
polémica
textmining
ocr
2022
cachitos
Cómo aún ando medio “covitoso”, reciclo el código y comentarios de la entrada de 2021 y con solo cambiar la ruta del fichero de subtítulos ya nos vale todo el código.
Jan 16, 2022
4 min

Cachitos. Segunda parte

estadística
polémica
2022
textmining
ocr
cachitos
Nada, esto es sólo para leernos con R los subtítulos del post anterior.
Jan 10, 2022
4 min

Cachitos 2021

estadística
polémica
2022
textmining
ocr
linux
cachitos
Retomando la entrada de cachitos de la nochevieja de 2020
Jan 8, 2022
2 min

Cocinando

muestreo
2022
encuestas electorales
Lo primero, feliz año a todos (no me da la gana de poner todas y todes), y espero que este año sea mejor que el pasado.
Jan 1, 2022
15 min

 

Modelos mixtos en spark. Intento 1

estadística
spark
modelos mixtos
2021
A los que nos dedicamos a esto siempre echamos de menos un lme4 en python o en Spark. En Julia afortunadamente tenemos MixedModels.jl.
Dec 12, 2021
8 min

 

Lecturas para el finde

estadística
análisis bayesiano
2021
El Vol 100 del Journal Of Statistical Software promete, y mucho. Artículo del gran Virgilio y muchos más sobre software para estadística bayesiana. Virgilio, sólo falta que…
Dec 1, 2021
1 min

¿A dónde va Vicente?

árboles
ciencia de datos
h2o
estadísticca
2021
Cuando estamos haciendo un modelo y tratamos con variables categóricas como predictoras, hay que ser muy cuidadoso. Por ejemplo hay que tener en cuenta qué pasa cuándo…
Nov 1, 2021
6 min

Análisis de correspondencias “old_style”

ciencia de datos
estadística
R
correspondencias
factorización
factorial
2021
Quién me conoce sabe que siento debilidad por el análisis de datos categóricos, en particular por técnicas como el análisis de correspondencias simple o múltiple o por las…
Oct 21, 2021
6 min

¿A/B qué?

análisis bayesiano
R
2021
Recuerdo siendo yo más bisoño cuando escuché a los marketinianos hablar del A/B testing para acá , A/B testing para allá. En mi ingenuidad pensaba que era alguna clase de…
Sep 27, 2021
4 min

 

Los viejos [R]ockeros. model.matrix

R
python
causal inference
2021
Nota: He cambiado la parte final para que hiciera lo mismo que el código de python, gracias a mi tocayo José Luis Hidalgo
Sep 10, 2021
7 min

¿Dos ejes de ordenadas? (Parte 2/n)

gráficos
2021
Siguiendo con el tema de los dos ejes de ordenadas, a mi no me gustan especialmente este tipo de gráficos, pero puedo entender que se use y, cómo dice mi amigo Raúl Vaquerizo…
Aug 28, 2021
4 min

¿Dos ejes de ordenadas? (Parte 1/n)

gráficos
2021
Anoche me iba a ir a la cama tras escuchar un podcast, pero al final estuve entretenido debatiendo con Raúl Vaquerizo, Alberto González Almuiña y Jesús Lagos , sobre los…
Aug 18, 2021
2 min

 

Palabras para Julia ( Parte 2/n)

Julia
ciencia de datos
2021
¿Qué os parecería tener un modelo guardado y un binario en linux que tomando como parámetros el modelo y el dataset a predecir guardara las predicciones en un csv?
Aug 16, 2021
12 min

Palabras para Julia ( Parte 1/n)

Julia
ciencia de datos
software
2021
A pesar del título, no voy a hablar sobre la excelente canción de los Suaves, sino del lenguaje de programación Julia. Ya en otra entrada del blog de hace un par de años…
Aug 7, 2021
8 min

Imputando datos. La estructura importa

estadística
imputación
2021
Voy a empezar este post con un par de citas.
Jun 13, 2021
5 min

Big data para pobres III. ¿Bayesiano?

estadística
big data
análisis bayesiano
modelos mixtos
2021
Y seguimos dando vueltas a los datos de post anteriores. Siempre hay quien dice que el bayesiano no sirve para big data y qué se acaba el universo antes de que termine de…
Jun 4, 2021
10 min

Big data para pobres II. ¿AUC?

estadística
2021
big data
modelos mixtos
Bueno, pues voy a ampliar el ejemplo del último día, como es viernes, estoy cansado y me iré a tomar una birra pronto, intentaré ser breve.
May 21, 2021
6 min

Cosas viejunas. O big data para pobres

estadística
2021
big data
modelos mixtos
Antes, cuándo no había tanta capacidad de cálculo ni esa obsesión por cuántas más variables mejor, se trabajaban los datos, se seleccionaban las variables, se muestreaba o…
May 14, 2021
6 min

Estimación Bayesiana, estilo compadre

2021
R
análisis bayesiano
El título de la entrada, sobre todo lo de la parte de “estilo compadre” viene de mis tiempos en consultoría, y tiene que ver con la necesidad de dar soluciones subóptimas a…
Mar 27, 2021
6 min

Purrr, furrr, maps y future_maps

ciencia de datos
R
2021
Hace un par de días un amigo mío me preguntaba por temas de que quería paralelizar un proceso con R, y no acababa de ver claro cómo. A falta de que mande un ejemplo creí…
Mar 13, 2021
5 min

 

AUC = Wilcoxon , de nuevo

estadística
2021
Anda la gente que si viendo a ver cómo calcular el AUC (roc), que si cómo se hace en spark o que si hay que tener en cuenta muchos puntos de corte y ver las tablas de…
Mar 8, 2021
2 min

Una colina

ciencia de datos
estadística
2021
Esta entrada es una fe de erratas de esta de hace casi dos años.
Feb 14, 2021
6 min

Cachitos. Tercera parte

estadística
polémica
2021
Después del último post llega el momento de ver si se puede sacar algo interesante del texto. Ya aviso ( y avisé) de que no tengo mucha idea de análisis de texto, por lo que…
Jan 26, 2021
8 min

Cachitos. Segunda parte

estadística
polémica
2021
En el post anterior vimos como extraer 1 de cada n fotogramas de un video, recortar una zona en concreto y pasarle un software de reconocimiento óptico de caracteres para…
Jan 13, 2021
7 min

Cachitos. Primera parte

estadística
linux
polémica
ocr
2021
En las ya pasadas navidades se generó algo de polémica con el especial de cachitos nochevieja. Qué si los rótulos se metían mucho con la oposición, el rey y ciudadanos y muy…
Jan 11, 2021
6 min

 

Tendencias

ciencia de datos
estadística
causal inference
2021
Hoy, mi amigo Jesús Lagos ha retuiteado una entrevista que ambos consideramos bastante mala, tweet, y el caso es que me ha hecho reflexionar sobre un par de tendencias que…
Jan 7, 2021
3 min

 

¿Y si … ? Parte II

estadística
causal inference
2020
Volvamos a nuestro ejemplo tonto, dónde habíamos visto que el T-learner cuando el modelo base es un modelo lineal equivale a tener un modelo saturado (con interacciones).
Dec 30, 2020
5 min

 

¿Y si … ? Parte I

estadística
causal inference
2020
Lo de la inferencia causal está de moda, y motivos hay, es una herramienta que intenta dar respuesta a preguntas cómo las siguientes.
Nov 15, 2020
4 min

Ejemplillo con NMF

estadística
correspondencias
factorización
nmf
2020
Ando falto de ideas, no sé si es la pandemia, el teletrabajo ( o la esclavitud en tiempos modernos como me gusta llamarlo) u otra cosa. Total, que me he puesto a bichear un…
Oct 21, 2020
6 min

 

PCA I. El álgebra es tu amiga

estadística
factorial
2020
Me pide mi amigo Jesús Lagos que hagamos un vídeo hablando del análisis de componentes principales para un canal que tiene junto a Miguel Angel.
Oct 18, 2020
4 min

 

Los viejos rockeros nunca mueren

estadística
empresas
big data
2020
En todo este mundo de la analítica de datos las modas van y vienen, pero la sensatez y el buen hacer siempre vuelven. Y vuelven porque son útiles, porque aportan valor y…
Oct 15, 2020
2 min

 

R 4.0.2 en amazon linux

R
linux
aws
2020
Entrada corta sobre como instalar R 4.0.2 en amazon linux, ya que por defecto trae una versión de R de hace 3 años.
Aug 20, 2020
3 min

¿PCA con ordinales y nominales? Tercera entrega. ¡ Que vienen los holandeses !

ciencia de datos
estadística
2020
Hoy vamos a darle una (pequeña) vuelta de tuerca al tema de la reducción de dimensiones ( y por ende la codificación ) con variables categóricas y ordinales.
Jun 11, 2020
5 min

 

Predicción, Estimación y Atribución

estadística
ciencia de datos
2020
El título no es mío sino del gran Bradley Efron que a sus 82 años aún sigue dando guerra. Acaba de salir publicado un artículo con el título que acabo de plagiarle en JASA y…
Jun 7, 2020
2 min

¿PCA con ordinales? ¿Y con nominales? Segunda entrega

estadística
2020
En el post anterior se me olvidó comentar que una parte importante es la interpretación.
Jun 4, 2020
6 min

¿PCA con ordinales? Primera entrega

estadística
factorial
2020
Supongo que todos sabemos lo de las escalas de medida, ¿verdad? Nominal, ordinal, intervalo y de razón. Y que todos sabemos lo que es un PCA y que sólo sirve para variables…
Jun 2, 2020
3 min

Factoriales….

estadística
2020
Supongo que los muchos o pocos que me leen habrán escuchado hablar del análisis factorial, o al menos de del PCA, ¿verdad? ¿Pero cuántos conocen la diferencia entre un PCA y…
May 24, 2020
3 min

 

EPA, muestreo y partial pooling

estadística
2020
modelos mixtos
Sale la EPA a a finales de Abril, con datos de Enero a Marzo. Es proverbial el retraso en la publicación de resultados por parte de las administraciones públicas. En…
Apr 28, 2020
2 min

 

Encuesta

estadística
2020
muestreo
encuestas
Estudio serológico covid19
Apr 8, 2020
2 min

 

Estimación muy burda del número de contagios.

estadística
2020
R
Leo por ahí estimaciones de que hay en España más de 1 millón de contagiados y la verdad es que no tengo ni idea. Pero no se me ocurre ir poniendo ese dato por ahí como…
Mar 29, 2020
1 min

El virus

estadística
2020
R
En estos tiempos tan asépticos ya no estamos acostumbrados (en algunos países), a tratar con agentes patógenos altamente contagiosos como el que llena los titulares de…
Mar 10, 2020
1 min

 

Lecciones aprendidas instalando paquetes de R

estadística
R
2020
Ay, la nube.. que bien suena ¿verdad? Si, hasta que te toca pelearte con amazonlinux y versiones viejunas de R. Total, que me ha tocado lidiar un poco con la versión de R…
Mar 1, 2020
3 min

 

Cosas de pandas

R python
python
2020
Estoy usando Rmarkdown así que primero defino que versión o entorno de python quiero
Feb 17, 2020
1 min

 

Finde de cacharreo

software
h2o
estadística
2020
Bueno, pues he cambiado de portátil. Me he dado un capricho y me he pillado un slimbook prox 15 con 6 cores (12 hilos) , 32 Gb de RAM y una tarjeta gráfica nvidia de las…
Feb 8, 2020
1 min

 

La fatal arrogancia

ciencia de datos
2019
No, no voy a hablar de liberalismo ni de Hayek. Solo quería hacer una pequeña reflexión sobre las nuevas generaciones de científicos de datos o como se les quiera llamar.
Nov 30, 2019
2 min

 

Cosas que deben cambiar

La semana pasada estuve en la bella ciudad de Alcoy en el congreso de Estadística e Investigación Operativa gracias a que nos invitaron a dar una sesión invitada presentando…
Sep 10, 2019
2 min

 

Codificación parcial y python

2019
ciencia de datos
estadística
R
python
O como se conoce en estos tiempos modernos one hot encoding. En realidad se trata simplemente de cómo codificar una variable categórica en un conjunto de números que un…
Jul 15, 2019
4 min

Malditas proporciones pequeñas III

2019
estadística
R
Volviendo al ejemplo de lo de las proporciones pequeñas, se trataba básicamente de que se tenía una población con una prevalencia de cierto evento del 4 x 1000 más o menos y…
Jul 3, 2019
2 min

 

El randomforest no nos deja ver el árbol

2019
estadística
R
ciencia de datos
tiempos modernos
En primer lugar, el título de este post se lo debo a Mario Passani y no va sobre estadística.
Jul 2, 2019
2 min

errores

Malditas proporciones pequeñas II

2019
estadística
R
¿Cuál sería el tamaño muestral mínimo para estimar un incremento del 15% en una proporción de digamos 0.004?
Jun 25, 2019
2 min

Malditas proporciones pequeñas I

2019
estadística
R
Cuando uno está en esto de ganarse la vida mediante la ciencia de datos, se da cuenta de que la vida no es tan maravillosa como lo cuentan los libros de texto ni los cursos…
Jun 24, 2019
2 min

 

¿Agile?

2019
ciencia de datos
agile
Reconozco que no tengo mucha idea de lo que es esto del Agile, he leído el manifiesto y parecen cosas bastante lógicas, no obstante mi crítica no va tanto al agile sino más…
Jun 16, 2019
4 min

Agua con gas

h2o
2019
bigdata
O mejor dicho Sparkling Water , que es una librería de la buena gente de h2o que permite aunar el mundo spark con el mundo de h2o.
Jun 7, 2019
10 min

 

Jornadas de usuarios de R (y ya van 11)

2019
estadística
machine learning
R
Quién nos los iba a decir, allá por 2009 cuándo recién creada la lista de correo r-help-es nos llegó el mensaje de que iban a celebrarse las primeras jornadas.Creo que soy…
May 4, 2019
2 min

Burbuja o no burbuja, esa es la cuestión

2019
estadística
tiempos modernos
R
Llevo un tiempo que me llegan noticias tales como “Con el big data predecimos cuál va a ser tu próxima tienda y cuánto te vas a gastar” o “predecimos los rebotes por partido…
Apr 1, 2019
3 min
No matching items