Visão | Quatro questões sobre Data Science

Quatro questões sobre Data Science

matejmo

A nossa sociedade está a entrar numa nova era de dados e máquinas inteligentes. Data Science não é uma moda passageira ou algo que as organizações possam dispensar ou ignorar. Sabe o suficiente para perceber como aproveitar esta tendência? A opinião de Filipa Rodrigues, da Rumos

Filipa Rodrigues Coordenadora Científica da Pós-Graduação em Data Science, Rumos Formação

1 Business Intelligence e Data Science, não é tudo a mesma coisa?

Existe uma certa confusão entre estes diferentes conceitos, uma vez que todos utilizam grandes quantidades de dados com o intuito de ajudar as organizações a tomarem melhores decisões e identificarem oportunidades de crescimento. Contudo, as abordagens e tecnologias que utilizam são bastante diferentes.

O objetivo do Business Intelligence é converter dados brutos em conhecimento para ajudar na tomada de decisão dos gestores. Por norma, o BI usa bases de dados internas da organização, para detectar tendências relevantes e utiliza ferramentas para criar relatórios, dashboards e visualizações de dados. Estas são geralmente fechadas, dando pouca liberdade para criar análises e relatórios mais personalizados. Embora, por vezes, o BI também faça previsões para o futuro, estas são normalmente simples inferências matemáticas em cima de dados atuais.

A Data Science emprega o método científico para a exploração dos dados através da formulação e teste de hipóteses, usando simulações e modelos estatísticos. A Data Science usa, muitas vezes, várias fontes de dados, tanto internas como externas à organização, e faz uso de métodos matemáticos e estatísticos para analisar e gerar previsões para o futuro.

A principal diferença entre estas duas disciplinas é que o Business Intelligence se foca na análise de dados do passado enquanto que Data Science pretende tratar do futuro, a partir da análise preditiva. Embora, por vezes, o BI também faça previsões, estas são inferências ou extrapolações de dados passados enquanto a Data Science usa linguagens de programação, como Python e R, que dão uma maior liberdade em todo o processo de exploração dos dados, predição e apresentação de resultados.

#2 Analistas, Engenheiros, Cientistas de Dados… afinal, de quantos profissionais precisamos?

Com o aumento da complexidade e quantidade de informação disponível nas organizações, é pouco provável que se encontre alguém com as skills necessárias para lidar com todas estas áreas. É, pois, importante ser capaz de identificar que função serve melhor as necessidades da organização e as competências de cada profissional. Sucintamente, temos:

O Data Analyst, cujo principal foco é ajudar os restantes elementos da sua organização a acompanhar e otimizar os seus esforços. As suas principais tarefas incluem a limpeza e organização dos dados brutos, identificação de tendências nos dados, análise de anomalias, e tradução dos resultados em informação clara e relevante através da criação de relatórios, dashboards e visualizações de dados.

O Data Scientist usa programação e métodos quantitativos matemáticos, estatísticos e machine learning, para encontrar soluções para problemas de negócio, ou científicos, complexos. A sua principal preocupação é criar e treinar modelos matemáticos que lhes permite identificar padrões e fazer previsões fiáveis. As suas tarefas principais passam pela construção de modelos preditivos, usando algoritmos de machine learning e uso de testes estatísticos para validação de hipóteses.

Enquanto um Data Analyst descreve tendências em dados passados e presentes, e traduz esses resultados em termos de negócio, o Data Scientist levanta novas questões e constrói modelos com o intuito de fazer previsões sobre o futuro mesmo quando baseados em dados nunca antes vistos pelos modelos.

O Data Engineer é o profissional com um perfil mais tecnológico e de infraestrutura de TI. Ele cria e otimiza os sistemas que permitem aos Data Scientists e Data Analysts fazerem o seu trabalho. Asseguram que os dados são recebidos, transformados e armazenados de forma adequada e que estejam acessíveis a outros. Entre as suas principais tarefas estão a construção de APIs para acesso a dados, integração de novos conjuntos de dados, internos e externos, monitorização e teste do sistema de forma a assegurar a sua boa performance.

#3: Qual a melhor linguagem de programação para Data Science?

Programar é inevitável quando se trabalha em Data Science devido à necessidade de criar modelos e relatórios altamente personalizados que respondem a questões muito específicas do negócio. Mas programar não precisa de ser uma tarefa apenas dos engenheiros de software. Existem duas linguagens bastante populares em Data Science, R e Python, com as quais é possível aprender rapidamente o suficiente para fazer as principais tarefas de Data Science.

Python é uma linguagem de programação legível e fácil de aprender, que pode ser usada para transformação, análise, predição e visualização avançada de dados e que se comporta bem com outras ferramentas e tecnologias, lidando muito bem com Big Data. Existem vários pacotes e frameworks em Python que a tornam a linguagem de eleição para muitos data scientists. Entre as mais populares temos o Pandas, biblioteca dedicada às tarefas mais importantes relacionadas com a limpeza, transformação e análise de dados e o Scikit-Learn, que oferece um conjunto de ferramentas muito completo para uso de algoritmos de previsão. Existem também uma série de frameworks para deep learning, um tipo de machine learning que tem revolucionado o mundo dos dados nos últimos anos, como o Tensorflow, Keras e Pytorch.

O R foi desenvolvido especificamente para computação estatística e, consequentemente, tem uma oferta abundante de packages de computação estatística. Os recursos de visualização de dados de R são um pouco mais sofisticados que os do Python e geralmente mais fáceis de gerar. No entanto, tem uma oferta menor no que toca a algoritmos de deep learning, e não lida tão bem com Big Data como o Python. E, para pessoas sem experiência de programação, não é tão intuitivo de aprender.

#4: Que aplicações pode ter a Data Science no mundo real?

Atualmente são raras as empresas que não usam dados para apoio às decisões. Por exemplo, na atividade comercial (online e offline), como forma de perceber e prever o abandono de clientes; identificação de clientes potenciais; na previsão da melhor localização para novas lojas, identificação e previsão de tendências na popularidade de produtos, na criação motores de recomendação personalizada de produtos;

Na indústria, para otimização da produção, previsão de compras e gestão de stocks, deteção de anomalias ou previsão de falhas e agendamento de períodos de manutenção;

Em medicina, para perceber porque os doentes são readmitidos no hospital, prever taxas de ocupação de recursos, na criação de modelos preditivos de diagnóstico ou evolução de doenças em face da história clínica de cada doente, na criação de medicamentos personalizados; Na atividade financeira, é já utilizada para a detecção de fraudes, análise e previsão automatizada de risco, análise e recomendação de investimentos.