CubanTech Meetup #16, 29 de julio de 2017
--
Esta presentación ha sido creada con reveal.js. Descargue las diapositivas / código fuente
Licencia Attribution 4.0 International.
- Periodismo de datos
- Jupyter Notebooks
- Python (pandas)
- Intro al evento
- Periodismo de datos y programación
- Aplicaciones de Python en periodismo
- Jupyter Notebook
- Introducción a pandas
--
- Conceptos básicos
- Operaciones básicas
- Importación y exploración de datos
- Procesamiento y análisis de datos
- Actividad práctica
- Algunas operaciones más avanzadas
- Tablas dinámicas
- Crear un data frame desde cero
- Combinar conjuntos de datos
![](img/ddj workflow 1.jpg)
Etapas de la producción de un proyecto de periodismo de datos según Aitamurto, Sirkkunen y Lehtonen (2011)
--
![](img/data journalism workflow guardian.jpg)
Flujo de trabajo en periodismo de datos. Mark McCormick. Tomado de “A data journalism workflow” de Simon Rogers (2013)
--
![](img/wj guardian 1.jpg)
--
![](img/wj guardian 2.jpg)
- txt, odf, doc,
- CSV, TSV, *SV
- xls, xlsx, ods
- Html, xml
- Jpeg, png, tiff
- gis
- db
- Json
- geojson, osm, kml
Hojas de cálculo limitadas a procesar 1 millón de filas
- Excel (1.048.576 x 16384)
- Calc (1.048.576 x 1024)
--
- 2015 - Emails del servidor privado de Clinton - 50,547 páginas de documentos - 7,570 enviados por Clinton
- 2015 - Panama Papers
- 2016 - Informe Chilcot +2.6 millones de palabras
--
![](img/panama papers.jpg)
![](img/panama papers.png)
Ranking del grupo de investigación IEEE Spectrum. Ver metodología aquí.
--
![](img/CkWqkdVXEAAXqLI.jpg large.jpg)
- Numpy (Commits: +15000, Contributors: 522)
- SciPy (Commits: +17000, Contributors: 489)
- Pandas (Commits: 15089, Contributors: 762)
- Matplotlib (Commits: +21000, Contributors: 588)
- Seaborn (Commits: 17000, Contributors: 71)
- Bokeh (Commits: +15000, Contributors: 223)
--
--
- Python
- R
- JavaScript
- Pearl
- PHP
- Ruby
- Versátil
- Fácil de aprender
- Intuitivo / Sintaxis clara
- Buena documentación
- Muchas opciones de librerías
- Opciones de librerías para integración con tecnologías de terceros
- Amplia adopción en la industria
--
- Curva de aprendizaje
- Incompatibilidad de versiones 2.x y 3.x
- pandas
- numpy
- matplotlib
- re
- BeautifulSoup
- scrapy, tweepy
- NLTK
- SciKit-learn
Concepto de Estadística y Econometría que designa datos multidimensionales medidos en diferentes intervalos de tiempo
--
| | | |::::|::::| |Autor original | Wes McKinney | |Desarrolladores | Comunidad | |Última versión estable | 0.20.2/ 4 junio de 2017 | |Respositorio | https://github.com/pydata/pandas | |Lenguaje | Python | |Sistema operativo | Multiplataforma | |Licencia | BSD | |Sitio web | pandas.pydata.org |
--
- Dataframes para manipulación de datos con indexación integrada
- Herramientas para importar y exportar datos entre estructuras de datos en memoria y diferentes formatos de archivo
- Gestión integrada de datos en blanco
- Modificación y dinamización de conjuntos de datos
--
- Subdivisión de grandes conjuntos de datos usando etiquetado e indexación
- Inserción y eliminación de columnas en estructuras de datos
- Agrupación y combinación de conjuntos de datos
- Funcionalidades para trabajo con series de tiempo
![](img/jupyter copia.jpg)
- Herramienta que permite utilizar código, texto, expresiones matemáticas, gráficos, e imágenes
- Interacción vía navegador
--
![](img/jupyter copia.jpg)
JUlia + PYThon + R = Jupyter
--
«Los cultores de la programación ilustrada pueden ser considerados ensayistas, cuya preocupación principal es la exposición y la excelencia del estilo. Estos autores, con diccionario en mano, eligen cuidadosamente los nombres de sus variables y explican lo que significa cada una. Se esfuerzan para crear un programa que sea comprensible porque sus conceptos se han introducido en un orden que se aviene mejor al entendimiento humano, usando una mezcla de métodos formales e informales que se refuerzan mutuamente.»
Tomado de Donald E. Knuth (2009), Literate Programming. The Computer Journal
![](img/Captura de pantalla de 2017-07-28 12-04-27.png)
--
![](img/Captura de pantalla de 2017-07-28 14-29-02.png)
--
![](img/Captura de pantalla de 2017-07-28 14-29-29.png)
--
![](img/Captura de pantalla de 2017-07-28 14-29-43.png)
--
![](img/Captura de pantalla de 2017-07-28 14-29-54.png)