Entrevista con la Dra. Julia Silge

R
Interviews
NLP
PLN, flujos de trabajo reproducibles, papel de la ciencia de los datos, y más. Esta es la mejor entrada que encontrarás en mi blog.
Author

Mauricio “Pachá” Vargas S.

Published

August 23, 2022

Entrada original en inglés: https://pacha.dev/blog/2020/04/14/dr.-julia-silge-interview/. La entrevista original es del día 2020-04-14.

Hoy he entrevistado a la Dra. Julia Silge, creadora de janeaustenr::, tidytext::, qualtRics::, y autora de Text Mining with R. Todavía me estoy recuperando de una operación en la mano, y esta vez la entrevista se ha realizado mediante una aplicación de voz a texto y un correo electrónico.

Entrevista

1. ¿Por qué usas R?

Llegué a R cuando estaba haciendo la transición a la ciencia de los datos como carrera, después de trabajar en el mundo académico y en la tecnología de la educación. Mi experiencia en programación en ese momento era una verdadera mezcla de todo, desde C, pasando por awk, a HTML, pero no era profesionalmente competente en las herramientas modernas de ciencia de datos. Tenía la formación académica adecuada para un título de científico de datos, pero no el conjunto de herramientas técnicas específicas adecuadas. Mientras trabajaba para actualizar ese conjunto de herramientas, aprendí algo de Python y R. Ambos son lenguajes fantásticos con diferentes puntos fuertes. La razón principal por la que R realmente dio la nota correcta para mí fue el tidyverse y su gusto a programación funcional. Esto fue alrededor de 2015 y aprendí R “tidyverse primero”; este lenguaje de programación me permitió ser eficaz más rápido que cualquier cosa que haya probado a lo largo de mi carrera técnica.

2. ¿Consideras que la investigación reproducible es un estándar de oro o un sueño imposible?

En mi trabajo en el mundo real, cuanto más he adoptado objetivos y prácticas en torno a los flujos de trabajo reproducibles, más tranquilos y felices hemos estado yo y mis compañeros de trabajo. Son prácticas que realmente ayudan a todos los implicados y reducen el dolor, así que soy una creyente. Por otro lado, vi una charla realmente interesante en JSM en 2018 por Victoria Stodden sobre los límites de la reproducibilidad desde un punto de vista computacional. Ella enfatizó cómo nuestras herramientas (sí, incluso herramientas como Docker) son profundamente imperfectas.

3. ¿Cómo se te ocurrió la idea de crear janeaustenr:: y sus sucesores en el mundo del PLN?

Específicamente para janeaustenr, estaba interesada en aprender a construir un paquete de R y había estado usando el texto de las novelas de Jane Austen en algunas de mis primeras entradas de blog de ciencia de datos, por lo que armar un pequeño paquete de datos era un buen ajuste. En mi opinión, a menudo las mejores ideas para los paquetes provienen de una necesidad real que tiene un usuario individual ¡Que luego se ve motivado a construir la misma cosa que necesita! Esta es una parte importante de cómo surgió tidytext y también hablé con más detalle de esto con Kelly O’Briant en el blog de rOpenSci.

4. ¿Qué tipo de contribuciones te gustaría ver por parte de la comunidad para hacer que el PLN en R sea aún mejor?

Como dos ejemplos, estoy muy entusiasmada con el trabajo que Emil Hvitfeldt está haciendo con textrecipes y que Ken Benoit y sus colaboradores están haciendo con quanteda.textmodels. El aprendizaje automático de textos en R es un área muy activa en este momento y es muy emocionante ver el trabajo que está surgiendo. Hay múltiples aspectos que son geniales: lo centrados que están los desarrolladores en la experiencia del usuario, el alto nivel de cooperación y apertura que veo y lo cuidadosamente que se están elaborando estas soluciones para el dominio del texto.

5. ¿Cómo pueden los científicos de datos ayudar adecuadamente a combatir el COVID-19? He visto tanto análisis buenos como malos y estoy seguro de que tienes una o dos cosas que decir con tu formación científica.

Lo último que hemos hablado habla mucho de esto, creo. Soy astrofísica de formación, tengo un interés particular en el PLN ahora, y mi título es actualmente ingeniera de software. Soy un poco generalista. No quiero ser frívola y decir únicamente “Lávate las manos y quédate en casa”, pero creo que es prudente pensar en cómo podemos utilizar nuestras relaciones, funciones y vocaciones existentes para aportar esperanza y renovación durante esta pandemia, en lugar de apropiarnos de la función o la experiencia de otra persona.

6. ¿Puede contarme un caso de uso de sus paquetes que le haya sorprendido?

Hace unas dos semanas, recibí un correo electrónico de una persona que trabaja en un distrito escolar, agradeciendo el trabajo realizado en el paquete rOpenSci qualtRics que mantengo. Decía que estaba utilizando el paquete para ayudar a su distrito escolar a tomar decisiones basadas en datos sobre el aprendizaje en línea y otras decisiones difíciles durante esta pandemia mundial. Me sentí abrumada, porque esta nota llegó durante una semana difícil para mí en estos tiempos de incertidumbre. Me sorprendió que este trabajo de código abierto que había hecho estuviera marcando la diferencia.

7. ¿Qué considera que podemos hacer como comunidad para luchar contra el desequilibrio salarial entre hombres y mujeres en nuestra industria? mis antiguos colegas economistas dogmáticos de la universidad dicen que “los mercados no discriminan”, yo no me lo creo.

Creo que tenemos muchas pruebas de que los mercados laborales no son eficientes todo el tiempo, así que no me preocupan demasiado los que hacen esos argumentos. A finales del año pasado, publiqué un modelo basado en los datos de Stack Overflow que demuestra que las mujeres más experimentadas que codifican ganan menos por el mismo trabajo y que el hecho de tener personas a cargo se asocia con un salario más bajo sólo para las mujeres. Esto encaja con otras investigaciones que abordan por qué las mujeres abandonan la tecnología en mayor proporción (incapacidad para avanzar, menor salario, trato injusto). La clave para aumentar la equidad y la diversidad en la tecnología es apoyar a la gente de los grupos sub-representados a medida que avanzan en sus carreras hacia niveles más altos. Los pasos de acción en este artículo de Rachel Thomas son excelentes.

8. ¿Qué recomendaría a las personas procedentes del mundo académico que se trasladan a la industria?

Estoy muy contenta de trabajar en la industria. Me encanta ver el impacto de mi trabajo en un plazo corto y tener flexibilidad para encontrar un empleador que se ajuste a mis valores y preferencias. Las habilidades y señales de competencia en la industria son algo diferentes a las del mundo académico, pero es importante que la gente del mundo académico sepa que sus habilidades son valiosas. El paso clave es construir una persona profesional que comunique claramente la competencia, a través de señales como la construcción de una cartera de ciencia de datos, la creación de redes y la realización de charlas, o las contribuciones de código abierto (en lugar de señales como la publicación de artículos). Parece que el mercado de contratación será especialmente difícil en los próximos meses debido a las condiciones financieras mundiales, por lo que la resistencia y el compromiso serán aún más necesarios durante lo que puede ser una transición difícil.