Cómo extraer y transformar datos de la NCAA desde ESPN en un Play-by-Play amigable
Capítulo 1: el calendario y los game_id
Alguno y alguna, con la franqueza que agradezco, me dijo que mi Substack de pago era muy de nicho. Es cierto lo reconozco, pero este quizás sea más nicho todavía. Porque que considero que, cuantos usuarios pueden estar interesados en extraer los play by play de la ncaa, que por cierto es una tarea mastodóntica ya que las lineas que pueden generar los 6.100 o 6.200 partidos por temporada pueden superar y superan más del millón. Quizás lo hago para mi yo del pasado, que hubiera matado porque le ensañaran hacer cosas concretas mas allá del tipico curso generalista de cómo programar en R. Pues si alguno tiene la inquietud que como yo tenía, aquí tiene. Vale, entonces; debido a otro proyecto paralelo, me voy a enfocar en la temporada de Michigan y en este primer capítulo me voy centrar en como extraer los game id necesarios para extraer los partidos y cómo quiero explicar todo muy bien aunque es un código corto, quiero explicar los conceptos de scrapping y html necesarios
Paso 1: Cargar librerías y definir la URL
En este enlace del calenderio de Michigan vemos todos los partidos jugados hasta la fecha si os fijais en el link si cambiaís la parte de final 130/michigan-wolverines por la del equipo que queráis analizar o extraer obtendréis su calendario
Entonces: cargamos las librerías necesarias y guardamos la URL del calendario del equipo del que queremos extraer los partidos.
library(tidyverse)
library(rvest)
url <- "https://www.espn.com/mens-college-basketball/team/schedule/_/id/130/michigan-wolverines"





