A segunda pergunta que mais me fazem é: Eu não tenho bons conhecimentos em programação e não sei direito matemática e estatística, será que eu posso ser Cientista de Dados?
Como assim é a segunda pergunta? Isso mesmo, a segunda pergunta. Por que a primeira pergunta geralmente é sobre o que fazem as pessoas que trabalham com ciência de dados? Só que nós já falamos sobre isso no artigo anterior.
Então vou descrever um pouquinho do que considero essencial para entrar nessa carreira em seis características principais.
1 – Gostar muito de aprender
A primeira característica que você precisa ter para se tornar cientista de dados é ser autodidata, gostar muito de estudar, pesquisar e aprender tecnologias novas. Sim, isso mesmo, pois por mais ferramentas e tecnologias que você saiba, sempre haverá uma nova para aprender.
Hoje temos inúmeras comunidades, grupos e eventos gratuitos para disseminar os conceitos e as novas tecnologias, é preciso estar com a antena ligada para participar, são muitos, mas sempre haverá um assunto que você julga mais urgente no momento.
2 – Ter conhecimentos básicos em banco de dados e estrutura básica de linguagem de programação
A segunda característica é ter conhecimento básico de banco de dados relacional ou não relacional (SQL e NoSQL) e de linguagem de programação.
Para explorar uma base de dados, você precisará aprender desde o início a utilizar algumas linguagens como R e Python para criar seu modelo de algoritmo. Utiliza-se muito a estrutura de atribuição de variáveis, vetores, matrizes, loops, ou seja, quando você desenvolve seu modelo, você está programando!
3 – Conhecer um pouco de infraestrutura
A terceira característica é conhecer um pouco de infraestrutura e saber os comandos básicos de Linux. É nessa hora que você pode se perguntar: Nossa, mas por quê? Então eu te digo que não é possível falar em ciência de dados sem falar em Big Data! Os fornecedores principais dos programas de Big Data trabalham com sistemas e ferramentas open source desenvolvidos em Linux. Então se você gosta de infra, talvez seu caminho seja montar essa arquitetura de servidores e softwares para armazenar e processar os dados.
4 – Saber o básico de estatística
A quarta característica é conhecer pelo menos o básico de estatística como quartis, percentis, variância, desvio padrão e o básico em cálculos matemáticos como álgebra, regressão, correlação e entender a tendência dos dados a partir de sua representação visual nos gráficos exploratórios. Sem conhecer esses conceitos você não consegue entender o comportamento dos dados para aplicar um algoritmo. É claro que se você tiver formação matemática ou estatística você terá mais facilidade para extrair informações dos dados e desenvolver seus próprios modelos.
5 – Ter conhecimento básico de gestão, processos e análise de negócios
A quinta característica é ter conhecimento de negócios, entender o que o seu cliente deseja saber é tão importante quanto saber desenvolver uma solução. Conhecer um pouco de mercado e métricas de desempenho, ajudam a saber onde o cliente deseja chegar. Seu papel aqui é a partir dos dados, desenhar o fluxo de etapas que você irá seguir, propor a arquitetura inicial (que pode ou não mudar no meio do caminho) e indicar a solução provável para obter o resultado.
6 – Ser um bom contador de histórias
A sexta característica é ser um bom contador de história, não adianta você ser bom em pesquisa, entender de negócio, saber cálculo, programar um modelo, se você não sabe contar o que os dados estão dizendo. Você precisa saber como apresentar as informações em forma gráfica para que o cliente veja o resultado e entenda a história dos dados.
Ah legal, gostei! Então por onde devo começar?
Não há uma sequência exata para seguir como uma receita de bolo, alguns começam por uma especialização, outros preferem pequenos cursos de tecnologias específicas, e há os que preferem começar fazendo um MBA de Estatística ou Curso de Matemática Prandiano, mas vou ajudar você com algumas sugestões. Lá vai:
Começar por uma pós-graduação em Ciência de Dados é um bom caminho, a especialização traz a base teórica necessária para explorar e desenvolver os projetos na área.
“Não tenho dinheiro para uma pós, mas quero começar já! Como faço?”
Tenho uma boa notícia! Há várias plataformas gratuitas para iniciar em Ciência de Dados e eu particularmente gosto muito da Data Science Academy, lá há vários cursos gratuitos que explicam de forma bem didática o que é Ciência de Dados, Big Data e Inteligência Artificial.
Depois de entender os conceitos, você precisa dos cursos de linguagens básicas R, Python e SAS. Considero esses três essenciais. A maioria das empresas utiliza essas linguagens. Há muitos cursos gratuitos em vários portais de ensino online.
- Para linguagem R, há um curso grátis na plataforma Datacamp.
- Para Python, super indico a série Mundo 1 do professor Guanabara no youtube, ele ensina os conceitos básicos de programação do zero utilizando a linguagem python. É uma ótima opção, para quem nunca teve contato com programação, então se você está iniciando agora e ainda não sabe programação, vale a pena começar por ele.
- Para SAS , há cursos de formação em São Paulo, mas há um curso intensivo a baixo custo(com desconto para estudantes) no CENAPD na Unicamp em Campinas, ser você quer trabalhar em seguradoras e instituições financeiras, vai precisar fazer.
Além dos cursos listados acima, também indico pelo menos uma ou duas vezes por semana participar em eventos na área, embora pareçam uma perda de tempo, é exatamente durante esses eventos que os conhecimentos que você adquiriu em disciplinas separadas na especialização ou nos cursos vão fazendo sentido e tomando forma, as peças vão se encaixando e você começa a entender melhor esse universo montando seu quebra-cabeças aos poucos. Sem contar que é uma oportunidade incrível de fazer seu network e socializar.
A Lambda3 apoia a iniciativa da School of AI que ensina de graça inteligência Artificial (uma das áreas da Ciência de Dados). As aulas acontecem às terças-feiras a cada 15 dias e são divulgadas pelo grupo do Facebook, faça parte para receber as notificações!
Tirar algumas certificações também pode ajudar muito no início da carreira. Temos os fornecedores principais de serviço de Big Data e IA em Nuvem, portanto, escolha a plataforma com que você se identifica e se dedique a isso.
Deixo abaixo alguns links de cursos para você se divertir nesse mundo de Ciência de Dados e Big Data:
- Especialização de 1 ano no Mackenzie – https://www.mackenzie.br/programas-de-pos-graduacao/especializacao/ead/ciencia-de-dados-big-data-analytics/
- Cursos no Data Science Academy – https://www.datascienceacademy.com.br/pages/todos-os-cursos-dsa
- Curso de R no Datacamp – https://www.datacamp.com/community/open-courses/introducao-a-r
- Curso de Python professor Guanbara – https://www.youtube.com/watch?v=S9uPNppGsGo
- School of AI São Paulo – https://www.facebook.com/groups/spschoolofai/
- Curso de SAS CENAPAD Unicamp – https://www.cenapad.unicamp.br/servicos/treinamentos/sas.shtml
- Curso de Matemática Prandiano – https://www.prandiano.com.br/bigdata
Portais de Serviços de Ciência de Dados e Big Dta em Nuvem para tirar suas certificações:
- Amazon AWS – https://aws.amazon.com/pt/
- Google – https://cloud.google.com
- IBM – https://www.ibm.com/br-pt/marketplace/cloud-platform
- Microsoft – https://azure.microsoft.com/pt-br/
- Hadoop – https://hadoop.apache.org/
Bons estudos e até a próxima!
Andréa Longarini