Prévia do material em texto
Introdução à ciência de dados Uma apresentação do campo de conhecimento da ciência de dados, sua presença no nosso dia a dia e as habilidades técnicas e não técnicas desejáveis de um cientista de dados. A motivação das organizações para adoção da ciência de dados. Prof. Luiz Felipe de Almeida Brito 1. Itens iniciais Propósito Entender o motivo pelo qual a ciência de dados tem sido adotada pelas organizações como uma valiosa ferramenta de auxílio na tomada de decisão e no planejamento estratégico. Compreender que não só organizações estão sendo impactadas pelo uso da ciência de dados, mas também toda a sociedade tem sido beneficiada pelo avanço na utilização desse campo de conhecimento. Objetivos Relacionar os principais fatores que permitiram o avanço na adoção do uso da ciência de dados nos últimos anos. Categorizar as habilidades desejáveis para um cientista de dados. Reconhecer a importância da ética na ciência de dados. Identificar os pilares de sucesso em um projeto de ciência de dados. Introdução Você provavelmente já participou de alguma conversa em que o termo ciência de dados foi mencionado. Pode ter sido em uma reunião na empresa na qual você trabalha ou em grupo de estudo da sua universidade. Pode até mesmo ter sido em uma conversa informal com amigos sobre um livro ou filme que abordam esse tema. Ou talvez seja essa a primeira vez com que você se depare com o assunto. Ciência de dados é mais do que uma palavra da moda, ou seja, não é apenas só mais um jargão do momento que é utilizado no mundo corporativo e que brevemente será substituído por outro. A ciência de dados é um campo de conhecimento que, nos últimos anos, tem moldado desde a maneira como as empresas fazem negócios até o filme que o serviço de streaming irá sugerir para você. Este estudo visa preparar um mapa que capacite você a navegar nesse oceano de conhecimento e inovação que é a ciência de dados. Iremos discutir por que, apenas recentemente, o interesse das organizações cresceu em relação a esse tema. Trataremos também das habilidades técnicas (hard skills) e habilidades não técnicas (soft skills) que as empresas buscam encontrar em um cientista de dados. Abordaremos um assunto delicado e importante que merece uma reflexão cautelosa: a ética no uso dos dados. E por fim, discutimos a desmistificação de algumas ideias equivocadas sobre o uso da ciência de dados. • • • • 1. Avanço da ciência de dados Um dilúvio de dados Neste vídeo, vamos aprender sobre dados, além de ver exemplos da quantidade e variedade imensa que temos deles. Conteúdo interativo Acesse a versão digital para assistir ao vídeo. Antes de começarmos nossos estudos, observe a seguinte frase: Não há dados ainda [...] é um erro capital teorizar antes de ter todas as evidências. Influencia o julgamento. (DOYLE, 1986, p. 20, tradução nossa) Vivemos um momento de desenvolvimento tecnológico que cria um ambiente extremamente favorável para aplicação da ciência de dados. Isso se deve ao fato de que, nas últimas décadas, ocorreu uma explosão na quantidade de dados disponíveis. Quer sejam os dados disponíveis de um registro de uma transação on-line, de uma rede social ou até mesmo disponibilizados por governos, o fato é que nunca na história de humanidade tivemos tamanha quantidade de dados sendo produzida e armazenada como atualmente. Organizações coletam uma quantidade assombrosa de dados produzidos a partir de dispositivos móveis conectados à internet, de plataformas de mídia, jogos on- line de computador, mecanismo de pesquisa na web, redes sociais, entre diversas outras fontes. Só para ter uma ideia, podemos estimar que a quantidade de dados sendo coletada diariamente é a mesma quantidade de dados coletados ao longo dos cinco milênios desde a invenção da escrita (3.500 a.C.) até aproximadamente o ano 2000. Não só a quantidade de dados coletados aumentou, mas também a variedade deles. Quando falamos de dados, podemos tomar como exemplo e-mails, blogs, fotos, curtidas, compartilhamentos e metadados. Metadados São dados que explicam outro dado, por exemplo, o título, número de páginas, gênero e o nome do autor são metadados que descrevem o livro. A ciência dos dados é fundamentalmente dependente de dados. Em sua forma mais básica, um dado ou um pedaço de informação é uma abstração de uma entidade do mundo real (pessoa, objeto ou evento). A ciência de dados é relevante hoje porque temos toneladas de dados e metadados disponíveis. Outro fator que tem contribuído para o avanço da utilização da ciência dos dados é o enorme crescimento do poder de processamento dos computadores, o qual hoje é melhor e mais barato se compararmos com o de poucas décadas atrás. Curiosidade No passado, um programa para manipulação, processamento e visualização de dados era caro. Atualmente, temos excelentes opções de programas que cumprem bem esse papel que são abertos e gratuitos ao público. Com esses programas, chamados open source software (software de código aberto), é possível armazenar exabyte de informação. Com a grande quantidade de programas, as ferramentas usadas para manipular dados estão mais baratas, a variedade dos dados disponíveis está acessível e a capacidade de armazenar e analisar essa diversidade de informação é algo totalmente viável no ponto de vista tecnológico. Nunca foi tão fácil para as organizações coletar, armazenar e processar dados. O desafio de empresas, startups e demais organizações é responder à seguinte questão: Como usar os dados de maneira eficaz, não apenas os seus próprios dados, mas todos os dados relevantes que estão disponíveis? O futuro pertence às empresas que descobrem como obter e usar os dados com sucesso. Grandes organizações, como Google, Amazon, Meta e LinkedIn, fazem disso o núcleo do seu sucesso. A próxima geração de negócios de sucesso será construída em torno de dados. Evolução da ciência de dados Neste vídeo, vamos explicar e exemplificar de forma didática o conceito de ciência de dados e sua evolução. Conteúdo interativo Acesse a versão digital para assistir ao vídeo. De um modo simples e prático, podemos definir ciência de dados como o estudo dos dados, assim como ciências biológicas é o estudo de biologia e ciência física é o estudo de reações físicas. Dados são reais, têm propriedades e, portanto, precisam ser estudados. Curiosidade O termo ciência de dados surgiu entre os anos 80 e 90, quando alguns professores analisavam o currículo de estatísticas e pensaram que seria melhor chamá-lo de ciência de dados. Provavelmente, haverá definições diferentes para ciência de dados, mas a maioria das pessoas concorda que ela tem um componente significativo de análise de dados. A ciência de dados, de fato, é uma tentativa de trabalhar com dados, para encontrar respostas às perguntas que estão sendo exploradas. Em 1962, John Tukey, considerado por muitos como o primeiro cientista de dados, escreveu um artigo intitulado O futuro da análise de dados, no qual descreveu uma mudança no mundo das estatísticas. [...] ao observar a evolução das estatísticas matemáticas, tive motivos para me perguntar e duvidar[...]passei a sentir que meu interesse central está na análise de dados [...] (TUKEY, 1962, p. 2) Tukey se referia à fusão de estatísticas e computadores, quando os computadores foram usados pela primeira vez para resolver problemas matemáticos e trabalhar com estatísticas. Comentário O termo ciência dos dados foi cunhado pela primeira vez em 2008 por Patil e Hammerbacher, o pioneiro líder dos esforços de análises de dados no LinkedIn e Facebook. Nas últimas décadas, a disciplina de ciência dos dados cresceu no meio acadêmico, estando também presente em empresas e organizações em todo o mundo. É utilizada por profissionais dos mais variados campos de estudo, como geneticistas, engenheiros e até astrônomos. A ciência de dados pode ajudar as organizações a entender seu ambiente, analisar problemas existentes e revelar oportunidades anteriormente ocultas. É aqui que chegamos ao "x" daquestão. Podemos usar essa ciência para aumentar o conhecimento da organização, investigando os dados, explorando a melhor maneira de usá-los para agregar valor aos negócios. Nossa maneira de trabalhar está mudando graças a essa ciência, a como usamos os dados e ao modo como as organizações entendem o mundo. O objetivo da ciência de dados é auxiliar o processo de tomada de decisão por meio do conhecimento extraído de grandes conjuntos de dados. Por esse motivo, essa ciência é adotada por diversas, uma vez que ajuda na tomada de melhores decisões em última instância, levando a melhores resultados. Vejamos o exemplo da fintech chinesa Ant Group. A empresa passou da marca de um bilhão de clientes em apenas 5 anos após sua fundação em 2014 e usa ciência de dados para prover uma variedade de serviços para seus clientes. Esses serviços vão desde jogos on-line até aplicações em fundos de investimento. Um fato intrigante é que, mesmo atendendo um número de clientes 10 vezes maior, a Ant Group atende seus clientes com menos de um terço do número de funcionários se comparado a um grande banco norte-americano. Fintech É o termo usado para descrever as novas tecnologias na área financeira, que automatizam e impulsionam a entrega e o uso de serviços, administrando operações, processos financeiros por meio de softwares e algoritmos usados em computadores ou smartphones. A grande diferença da Ant Group para as instituições financeiras tradicionais é que ela foi construída sobre o alicerce da ciência de dados. Portanto, pode ser considerada uma empresa orientada a dados (ou data driven). Na Ant Group, você não encontra gerentes aprovando empréstimos ou empregados executando atividades que estão no caminho crítico da operação. A ciência de dados, por meio da inteligência artificial, realiza todo esse serviço. Sem esses gargalos operacionais que deixam o processo mais lento e oneroso, a Ant Group conseguiu uma vantagem competitiva que a coloca muito à frente de seus concorrentes. Saiba mais Técnicas de ciências de dados também são usadas para definir preços na Amazon e recomendar músicas no Spotify. Graças a essas técnicas, é possível eliminar restrições impostas por antigos processos de negócios. Para as empresas, torna-se essencial entender o impacto revolucionário que a ciência de dados possui sobre suas operações e estratégia. Sempre esteve ao lado seu, mas você não percebeu Neste vídeo, vamos explicar e exemplificar de forma didática que conhecemos e usamos ciência de dados, que é muito importante justificar a importância com aplicações fáceis de entender. Conteúdo interativo Acesse a versão digital para assistir ao vídeo. A ciência de dados está por toda parte e você provavelmente a usa dúzias de vezes diariamente sem se dar conta disso. Algumas das formas nas quais a ciência de dados afeta seu cotidiano são as propagandas exibidas enquanto você está navegando na internet, uma conexão de amizade recomendada nas redes sociais e e-mails enviados para a sua caixa de spam. O crescimento do uso da ciência de dados em nossa sociedade é impulsionado por diversos fatores, tais como: o surgimento de big data e mídias sociais; a aceleração do poder de processamento computacional; a redução maciça no custo da memória de computador; o desenvolvimento de métodos mais poderosos para análise e modelagem de dados, como deep learning. Comentário A ciência de dados está intimamente relacionada com as disciplinas big data e deep learning, porém é mais ampla em escopo. É fácil confundir a disciplina de ciência de dados com as disciplinas de big data mining e deep learning. Essa confusão ocorre porque as três disciplinas têm como objetivo final melhorar o processo de tomada de decisão com base na análise de dados. O termo deep learning descreve uma família de modelos de redes neurais com múltiplas camadas de unidades ligadas como uma rede. As redes neurais existem desde a década de 1940, funcionam melhor com grandes e complexos conjuntos de dados e precisam de uma grande quantidade de recursos computacionais para serem treinadas. Portanto, o avanço na utilização do deep learning está ligado diretamente à grande quantidade de dados disponível e ao aumento do poder computacional de processamento. O deep learning está presente em vários serviços oferecidos atualmente. A Meta, por exemplo, usa a tecnologia para o reconhecimento de rostos e para analisar textos a fim de anunciar diretamente a indivíduos com base em suas conversas on-line. Meta Nome atual do Facebook. O Google utiliza o deep learning para o reconhecimento de imagens e tradução automática. As assistentes virtuais Siri, da Apple, e Alexa, da Amazon, por exemplo, usam para reconhecimento de voz baseado em deep learning. Os algoritmos de deep learning são uma classe especial de algoritmos de machine learning, campo de estudo de algoritmos que aprende automaticamente com a experiência, ou seja, os computadores aprendem sem serem explicitamente programados. Machine learning não é um ramo da ciência de dados, e sim um ramo da inteligência artificial. A ciência de dados apenas usa recurso como uma ferramenta. O campo de estudo do machine learning está no centro da ciência de dados porque fornece algoritmos capazes de analisar automaticamente grandes conjuntos de dados (também chamados de datasets) para extrair padrões potencialmente úteis. Um exemplo de uso de machine learning são os Global Positioning System (GPS), serviço que geralmente usamos enquanto dirigimos. Nesse cenário, o machine learning faz uma análise de congestionamento e nos indica o melhor caminho para o nosso destino. E para finalizar, precisamos entender o que é big data, termo que descreve grandes volumes de dados difíceis de gerenciar. Esses dados podem ser estruturados, ou seja, possuem estrutura previamente definida, por exemplo, o cadastro de clientes da sua empresa, e não estruturados, quando não requerem uma estrutura padronizada e podem ser compostos por elementos diversos como fotos, áudios, vídeos, textos etc. Para definir big data, podemos usar a regra dos três Vs: Volumes extremos de dados. Grande variedade de tipos de dados. Velocidade na qual os dados devem ser processados. O setor educacional é um bom exemplo de utilização de big data, pois se encontra inundado com grandes quantidades de dados relacionados a alunos, professores, cursos, resultados e material de ensino. O estudo e a análise desses dados fornecem informações que podem ser usadas para melhorar a eficácia operacional e o funcionamento das instituições. A ciência dos dados possui efeitos significativos no nosso cotidiano. Como acabamos de ver, quando utilizada adequadamente, essa ciência tem um enorme potencial de melhorar nossa vida. Uma dupla perfeita Neste vídeo, vamos compreender a importância de detectar padrões não óbvios e úteis e separar o trabalho dos computadores dos trabalhos humanos. Conteúdo interativo Acesse a versão digital para assistir ao vídeo. A ciência de dados nos ajuda a superar o obstáculo de extrair padrões não óbvios e úteis de grandes conjuntos de dados. Considere padrões não óbvios e úteis como sendo o sinônimo de uma vantagem competitiva não explorada, ou uma nova oportunidade de negócio, um perfil de cliente não atendido ou até mesmo uma nova forma de diagnosticar uma doença. Em termos de complexidade de padrões, nós seres humanos lidamos razoavelmente bem com regras que verificam uma, duas ou até três características ou atributos que identificam um padrão. Mas e quando nos deparamos com padrões que só podem ser detectados se analisarmos o comportamento de centenas de características diferentes? É aqui que a ciência de dados entra em ação. Ela nos permite extrair um padrão que possua dezenas, centenas ou até milhares de características para ser identificado. O que para nós seria muito difícil ou quase impossível de identificar, para a ciência de dados torna-se uma tarefa normal! De um lado, temos uma pessoa capaz de criar um modelo que busque por padrões e,de outro, um computador capaz de processar um grande volume de dados em um tempo hábil. Então encontramos a dupla perfeita! Daniel Gruhl, um pesquisador da Institute for Business Value, em entrevista ao jornal The New York Times em agosto de 2009, afirmou que: Devemos deixar que os computadores façam aquilo no que são bons, que é vasculhar enormes quantidade de dados em busca de algo diferente, ou estranho, ou que salte aos olhos. Isso torna fácil para os humanos fazerem aquilo que são bons, que é explicar essas anomalias. (LOHR, 2009, n.p.) Há outra excelente citação dada pela Instrument Society of America que resume bem essa ideia: "Os computadores são incrivelmente rápidos, precisos e estúpidos. Por outro lado, um operador bem treinado em comparação com um computador é incrivelmente lento, impreciso e brilhante" (COUTURE, 1969, p. 4). As grandes empresas já se deram conta da importância dos dados e correm contra o relógio investindo pesado em tecnologia e conhecimento, de modo a terem êxito na busca por padrões e comportamentos úteis na tomada de decisão. Não é um exagero dizer que essa ciência tem revolucionado o processo de tomada de decisão em quase todos os setores produtivos e áreas de negócio. Essa á a razão pela qual a ciência de dados é usada em diversas áreas. Não importa qual é o domínio do problema, se os dados corretos estiverem disponíveis e o problema puder ser claramente definido, então a ciência dos dados pode ser aplicada com um alto grau de sucesso. A humanidade, ao longo da sua história, sempre usou a abstração para tentar compreender o mundo por meio da identificação de padrões. A ciência de dados pode ser considerada como um exemplo deste comportamento na busca por padrões. A engenhosidade humana, juntamente com um grande volume de dados disponível e o poder computacional que temos hoje, possibilita o uso da ciência de dados em várias áreas da sociedade moderna. Portanto, embora já estejamos usufruindo de muitos benefícios oriundos da ciência de dados, a amplitude de seu impacto na vida moderna e as possibilidades que revela são sem precedentes. Verificando o aprendizado Questão 1 Quais são os dois fatores que permitiram a adoção da ciência de dados pelas organizações? A O aumento do número de profissionais que atuam na área da ciência de dados e o aumento massivo da quantidade de dados que são coletados. B O desenvolvimento de sensores e a digitalização de dados. C A nova forma de modelagem e armazenamento de dados que surgiu a partir do desenvolvimento de big data. D O aumento massivo da quantidade de dados que são coletados e armazenados e o crescimento expressivo do poder de processamento dos computadores. E O desenvolvimento da tecnologia de big data e da disciplina de deep learning. A alternativa D está correta. Ao mesmo tempo em que há mais dados disponíveis do que nunca, temos o poder computacional necessário para fazer uma análise útil e revelar novos conhecimentos. Questão 2 Cada postagem em um blog possui atributos como título, autor, tempo publicado, categoria e tag. Esses atributos podem ser definidos como sendo A dados estruturados. B dados não estruturados. C colunas de uma planilha. D um padrão. E metadados. A alternativa E está correta. Os metadados resumem as informações básicas sobre um dado, como um blog, assim como ajudam a organizar, localizar e compreender os dados. 2. Habilidades do cientista de dados O que levar na sua caixa de ferramentas? Neste vídeo, vamos explicar as principais habilidades de um cientista de dados. Conteúdo interativo Acesse a versão digital para assistir ao vídeo. Certa vez, Ronald H. Coase, vencedor do Prêmio Nobel de economia, afirmou: “Torture os dados e eles confessarão qualquer coisa.” Desde 2012, quando a Harvard Business Review publicou o artigo intitulado Data Scientist: The Sexiest Job of the 21st Century, a carreira de cientista de dados entrou no radar não só de muitos profissionais, como também de empresas. Nesse artigo, dentre outros assuntos, o professor Thomas Davenport elenca as habilidades necessárias que um profissional deve possuir para se tornar um cientista de dados de destaque e atraia desse modo a atenção das empresas. Curiosidade O conceito de ciência de dados ganhou proeminência no final dos anos 90 em um debate relacionado com a necessidade de os estatísticos se juntarem com cientistas da computação com o objetivo de trazer mais rigor matemático para a análise computacional de grandes massas de dados. Desde então, o conceito de ciência se ampliou muito além de uma mera redefinição do campo da estatística. Assim como o professor Davenport, muitas empresas, recrutadores e universidades tentam definir um conjunto de habilidades técnicas (hard skills) e não técnicas (soft skills) imprescindíveis para o profissional que deseja atuar nessa área. No entanto, é difícil resumir todo o campo da ciência de dados em algumas habilidades, especialmente porque o trabalho do cientista de dados tem significados diferentes na maioria das empresas. Na verdade, hoje o papel de um cientista de dados tornou-se tão amplo que há um debate contínuo sobre como definir os conhecimentos e as habilidades necessárias para desempenhar essa função. Ainda assim, é possível listar os conhecimentos e habilidades que a maioria das pessoas concorda que são relevantes para a função. Há um consenso de que os cientistas de dados são profissionais altamente educados, muitos possuem mestrado e uma grande maioria possui um background educacional muito forte. Também é consenso que esse profissional deve saber trabalhar em equipe, comunicar ideias de forma clara e possuir uma sólida base de análise quantitativa. Quem possuir essas habilidades terá grandes chances de sobressair na área de ciência de dados. O cientista de dados deve possuir habilidades que vão desde a ciência da computação tradicional até a matemática e a arte. Precisa ser criativo ao apresentar os dados, assim como saber dividir grandes problemas em problemas menores sem perder a perspectiva do todo. Outras duas habilidades importantes são a paciência e o empreendedorismo, pois ambas fornecem a capacidade de construir projetos de dados de forma incremental e de explorar. Resumindo: a formação do cientista de dados é interdisciplinar! Esse profissional pode lidar com todos os aspectos de um problema, desde a coleta inicial dos dados e o seu condicionamento até conclusões. Ele deve conseguir “pensar fora da caixa” de modo a criar novas formas de encarar o problema. É difícil dominar todas as áreas e, de fato, a maioria dos cientistas de dados geralmente possui conhecimento profundo e experiência real em apenas um subconjunto delas. No entanto, é importante entender e estar ciente da contribuição de cada área para um projeto de ciência de dados. A respeito das habilidades requeridas na área, vamos relacionar e exemplificar aquelas que julgamos ser importantes para o cientista de dados. Para isso, trataremos das habilidades técnicas e no das habilidades não técnicas. Nosso objetivo é uma melhor compreensão de algumas ferramentas indispensáveis que um cientista de dados deve ter em sua caixa de ferramentas. Habilidades técnicas Neste vídeo, vamos apresentar as principais habilidades técnicas de um cientista de dados. Conteúdo interativo Acesse a versão digital para assistir ao vídeo. As habilidades técnicas, ou hard skills, são habilidades objetivas e quantificáveis adquiridas por meio de treinamento, escola ou experiências de trabalho. Geralmente, é algo que pode ser ensinado ou aprendido. Estatística e probabilidade A análise quantitativa é uma habilidade vital para um cientista de dados. Métodos de estatística e probabilidade são usados em todo o processo de ciência de dados, desde a coleta inicial e investigação dos dados até a comparação dos resultados de diferentes modelos e análises produzidos durante o projeto. Grande parte da ciência de dados tem a ver com a compreensão do comportamento de um sistema complexoparticular, analisando os dados produzidos tanto naturalmente como por meio de experimentos. A necessidade de habilidades de análise quantitativa é importante de várias maneiras. Ciência de dados não se trata somente da existência de dados ou de fazer suposições sobre o significado deles, mas também de testar hipóteses e garantir que as conclusões sejam válidas. A importância da estatística na ciência dos dados não pode ser subestimada. Essa habilidade permitirá que o cientista de dados pense criticamente e seja criativo ao usar os dados para resolver problemas de negócios e tomar decisões orientadas pelos dados. Machine learning O cientista de dados envolvido na utilização machine learning para processar dados e encontrar padrões não necessariamente precisa escrever suas próprias versões dos algoritmos de machine learning. Contudo, é necessário que esse profissional entenda esses algoritmos, saiba usá-los e compreenda qual o significado dos resultados que geram. Ele deve saber qual algoritmo é o mais adequado para atender às necessidades de determinada tarefa. O cientista de dados deve manter os algoritmos de machine learning em sua "caixa de ferramentas" e saber usá-los no momento certo. Programação As habilidades de programação são essenciais na ciência dos dados, pois permitem que os profissionais manipulem e analisem efetivamente grandes conjuntos de dados. Python e R são as linguagens de programação mais populares na ciência dos dados. Muitos cientistas de dados não têm um diploma de ciências da computação e não são especialistas em codificação, mas estão familiarizados com os fundamentos da programação e criação de código. Visualização dos dados (data visualization) Desempenha um importante papel em todos os estágios do projeto de ciência de dados. Essa é uma ferramenta primordial para o condicionamento e, consequentemente, o tratamento dos dados. A maior parte das análises de dados gera números e, para entender o significado desses números e as suas histórias, é necessário criar um gráfico. Essa ferramenta também é útil para descobrir o quão bom ou ruim os dados são. A visualização de dados possui um papel importante na ciência de dados, pois ajuda a observar tendências ou padrões discrepantes que, de outro modo, poderiam passar despercebidos. Manipulação de dados em banco de dados Na maioria das organizações, uma significante parte dos dados é oriunda de diversos bancos de dados espalhados pelas mais variadas áreas da organização. Todos esses dados espalhados precisarão ser integrados, limpos, transformados e normalizados. Essas tarefas têm muitos nomes, como: data munging, ou data wrangling, ou data fusion. Como consequência, os cientistas de dados precisam ter a habilidade de criar interfaces e manipular dados para executar essas tarefas. A linguagem de consulta estruturada, ou structured query language (SQL), é uma linguagem de programação de propósito especial para o gerenciamento de dados mantidos em sistemas de gerenciamento de bancos de dados relacionais. Quase todos os dados estruturados são armazenados nesses bancos de dados. Portanto, para um cientista de dados, torna-se imprescindível conhecer essa linguagem de manipulação de dados. Habilidades não técnicas Neste vídeo, vamos conhecer as principais habilidades não técnicas de um cientista de dados. Conteúdo interativo Acesse a versão digital para assistir ao vídeo. Habilidades não técnicas ou soft skills é um conceito muito popular nos dias de hoje, sendo utilizado para designar competências pessoais transversais, como as aptidões sociais, a capacidade de linguagem e comunicação, a simpatia e capacidade de trabalhar em equipe e outros traços de personalidade que caracterizam as relações entre as pessoas (CIMATTI, 2016, p. 97). Conhecimento especializado ou domínio do assunto (domain expert) O conhecimento especializado, ou domain expert, refere-se ao domínio de conhecimentos de um campo específico. O principal objetivo de um cientista de dados é traduzir problemas de negócios em soluções de ciência de dados por meio de habilidades analíticas. Esse profissional de dados pode atuar em uma ampla variedade de setores (financeiro, químico, esportivo, martech etc.), cada um com suas próprias complexidades que só podem ser aprendidas gradualmente ao longo do tempo. Em outras palavras, sem o conhecimento do negócio, um cientista de dados terá dificuldade, ao menos inicialmente, em entender os dados, fazer as perguntas certas e comunicar-se efetivamente com os tomadores de decisão. Comentário O que diferencia um cientista de dados é o conhecimento do setor em que atua. Ele deve ser capaz e de ajudar a encontrar o problema de negócio certo a ser resolvido. Caso não tenha um bom entendimento do domínio de negócio, é fortemente aconselhável que ele busque esse conhecimento com os outros membros da equipe. É importante que o cientista de dados participe das reuniões de negócios e forneça informações significativas sobre o projeto, responda às perguntas e comunique os resultados. A incapacidade de fazer isso pode criar obstáculos para o sucesso do projeto de ciência de dados. Comunicação A habilidade de comunicação é fundamental para os cientistas de dados e não pode ser ignorada. Além de “falar uma língua” que a área de negócios entenda, os cientistas de dados devem comunicar suas descobertas usando data storytelling (narrativa de dados, em tradução livre). Data storytelling é o processo de transformar as análises de dados em um enredo compreensível para um público mais amplo, a fim de influenciar as decisões dos usuários comerciais e outras partes interessadas. Não adianta apenas executar um brilhante projeto de ciência de dados, os resultados devem ser comunicados de modo que colegas com formação não técnica possam compreendê-los e ter confiança neles. O cientista de dados precisa ser capaz de transmitir de maneira clara e fluente as descobertas para times comerciais, como marketing e vendas. A habilidade da comunicação cumpre o objetivo final de prover percepções quantitativas que atendam às necessidades das equipes estratégicas em um projeto de ciência de dados. Trabalho em equipe É uma habilidade importante para o cientista de dados, pois a colaboração com diversos profissionais é intrínseca ao trabalho da área. Trabalhar em equipe tanto com colegas bem como com clientes externos faz parte do conjunto de habilidades diárias desse profissional. Um projeto de ciência de dados exige os esforços combinados de vários profissionais com conhecimentos diferentes. O cientista de dados interage com profissionais de diversas áreas, como com analistas de negócios para entender as exigências do cliente, com o departamento de marketing e a equipe de software para desenvolvimento de produtos. Portanto, saber trabalhar em equipe é essencial nessa carreira! Ética no uso dos dados Os valores éticos na coleta, no armazenamento, no processamento e no compartilhamento de dados para fins comerciais são essenciais para um cientista de dados. Os dados estão no centro de todos os projetos de ciências de dados. Contudo, o fato de uma organização ter acesso a esses dados não significa que possa legalmente ou deva usá-los de forma não ética. Considerações éticas são vitais para o uso responsável dos dados. À medida que o uso da ciência de dados e a inteligência artificial se torna cada vez mais onipresente em nosso cotidiano, é ainda mais importante que os principais talentos da ciência de dados estejam cientes e apliquem consistentemente raciocínios e práticas éticas. Questões de preconceito, privacidade e confiança devem ser observadas em todo projeto de ciência de dados. Os dados são o combustível que alimenta a economia digital. Todos que trabalham com dados devem entender seu papel e suas obrigações éticas. Verificando o aprendizado Questão 1 Para se tornar um cientista de dados, é necessário que o profissional tenha um sólido conhecimento da indústria em que trabalha, além de conhecer quais os principaisproblemas de negócio que a empresa está tentando resolver. Ser capaz de discernir quais problemas serão abordados prioritariamente é uma habilidade essencial para o cientista de dados. Qual habilidade desejável a um cientista de dados é descrita no enunciado? A Machine Learning. B Comunicação. C Ética no uso de dados. D Estatística e probabilidade. E Domínio do assunto (domain expert). A alternativa E está correta. Em muitos casos, os projetos de ciência de dados são propostos para analisar dados de domínios de conhecimento que o cientista de dados tem pouco conhecimento. Compreender o negócio é fundamental para que o cientista de dados não só saiba o que deve ser investigado, mas também saiba como comunicar o resultado da sua investigação. Questão 2 O conhecimento da linguagem SQL se faz necessário para o desenvolvimento de qual habilidade? A Estatística e probabilidade. B Machine learning. C Programação. D Manipulação de dados em banco de dados. E Data visualization. A alternativa D está correta. Um cientista de dados precisa conhecer a linguagem SQL para lidar com dados estruturados. Esses dados estruturados são armazenados em bancos de dados relacionais. Portanto, para consultar esses bancos de dados, um cientista de dados deve ter um bom conhecimento de SQL. 3. Ética em ciência de dados Com grandes poderes vêm grandes responsabilidades Neste vídeo, vamos conhecer a importância da ética na ciência de dados. Conteúdo interativo Acesse a versão digital para assistir ao vídeo. Para começar, reflita sobre a seguinte frase: O difícil em ser um cientista de dados ético não é entender a ética. É a junção entre as ideias éticas e a prática. Isto é fazer uma boa ciência de dados. (LOUKIDES, 2018, p. 8) A ciência de dados possui como objetivo apoiar o processo de tomada de decisão por meio do conhecimento extraído dos dados. A sociedade moderna já tem se beneficiado dos resultados do uso da ciência de dados de diversas maneiras. Contudo, essa mesma sociedade precisa responder a um antigo dilema sobre equilibrar as liberdades e a privacidade dos indivíduos. Para compreendermos melhor esse dilema, vamos contextualizar alguns casos: Como pacientes, nos preocupamos com a privacidade de nosso prontuário médico. Porém, também desejamos nos beneficiar da análise dos dados dos prontuários médicos que podem resultar em diagnósticos mais rápidos e tratamentos mais precisos. Como cidadãos, queremos um julgamento justo antes de sermos punidos por um crime. Por outro lado, também queremos deter os terroristas antes que eles nos ataquem. Na ciência de dados, esse dilema não é diferente. Como tomadores de decisão, valorizamos os conselhos que recebemos de algoritmos orientados por dados, mas também nos preocupamos com o preconceito não intencional. A ciência de dados promete fornecer uma maneira de entender o mundo por meio dos dados. Essa promessa se torna muito tentadora, tendo em vista o momento atual de dados sendo produzidos em abundância. Além disso, vários argumentos podem ser usados para apoiar o desenvolvimento e a adoção de soluções tecnológicas voltadas para os dados. No contexto empresarial, um bom argumento é aquele que diz respeito à melhoria da eficiência, eficácia e competitividade. Já no contexto de governos, o argumento usado para uma maior adoção de tecnologias e práticas da ciência dos dados diz respeito à segurança. Esse argumento é sustentado pela afirmação de que a vigilância melhora a segurança. Isso nos leva a concluir que a ciência dos dados é uma via de mão dupla. Ela pode ser usada para melhorar nossa vida, por exemplo, com um governo mais eficiente, melhores medicamentos e cuidados de saúde, cidades mais inteligentes, redução da criminalidade e muitas outras vantagens. Por outro lado, também pode ser usada para vigiar nossa privacidade, nos atingir com publicidade indesejada e controlar nosso comportamento, com ou sem nosso consentimento. Atualmente, é possível empregar avançadas técnicas de ciência de dados para inferir, de forma segura, qual será nosso comportamento a partir de dados aparentemente não relacionados que voluntariamente publicamos nas mídias sociais. Exemplo Muitas pessoas estão dispostas a “curtir” algo no Instagram para apoiar um amigo. No entanto, simplesmente usando os dados contidos nos itens que esse usuário “curtiu” nessa rede social, modelos de machine learning podem prever com precisão a orientação sexual dessa pessoa, visões políticas e religiosas, características de inteligência e personalidade, e o uso de substâncias viciantes, como álcool, drogas e cigarros. Há variações entre jurisdições nas leis relativas à proteção da privacidade e ao uso permitido de dados. Entretanto, a legislação antidiscriminação e a legislação de proteção de dados pessoais estão presentes na maioria das jurisdições. É notório que, apesar das estruturas legais em vigor, os governos frequentemente coletam dados pessoais de seus cidadãos, assim como de estrangeiros, sem o conhecimento dessas pessoas. Muitas vezes, essa coleta é feita em nome da segurança e da inteligência. Em um contexto tão fluido, é melhor agir de forma conservadora e ética. Ao desenvolver uma nova solução de ciência de dados para problemas empresariais, o cientista de dados deve considerar as questões éticas em relação aos dados utilizados. Agir de forma ética e transparente com dados pessoais garante que uma empresa tenha boas relações com seus clientes. A melhor maneira de garantir que as soluções de ciência de dados não sejam contrárias aos regulamentos atuais é agir de forma consciente, transparente e ética. A maioria dos dados analisados é sobre seres humanos ou tem impacto que os afetam. Logo, quando praticamos a ciência de dados, precisamos considerar esse impacto, sendo essa a base da prática ética da ciência de dados. O que me impede de roubar sua carteira? Neste vídeo, vamos apresentar alguns argumentos e casos para entender a importância da ética na ciência de dados. Conteúdo interativo Acesse a versão digital para assistir ao vídeo. A razão pela qual a ética é importante na ciência de dados se deve ao fato de que, na maioria das vezes, há impacto na vida das pessoas em tudo o que fazemos quando praticamos ciência de dados. Para exemplificar a questão da ética na ciência de dados, faça uma reflexão sobre as seguintes premissas: Os princípios éticos me impediram de roubar sua carteira (ou os seus dados). Agora, há outras coisas que poderiam me impedir de roubar sua carteira. Se você for maior e mais forte, talvez eu não queira roubar sua carteira, porque, possivelmente, meu plano não teria êxito. Mas a ética me impediria, mesmo que você seja menor e mais fraco que eu. É possível que eu não roube sua carteira simplesmente porque tenho medo de ser pego e depois ser preso. A ética me impede de roubar sua carteira, mesmo que não haja nenhuma chance de que eu seja pego. A ética é um princípio fundamental do que pensamos ser o correto! Atualmente, possuímos uma quantidade de dados como nunca antes na história e temos opções sem precedentes para analisá-los. Isso faz com que praticamente não haja limite para a ciência de dados. Diante desse cenário, cabe a reflexão: Devemos fazer tudo o que é possível? Existem coisas possíveis de se fazer que concordamos que não deveríamos fazer? Uma maneira de pensar o benefício da ética é em termos de economia. Na maioria das vezes, a sociedade como um todo se sai melhor quando cada indivíduo trabalha para maximizar seu próprio benefício individual. Esse é o alicerce do livre mercado no qual se sustenta a economia moderna. Por outro lado, também há situações em que o benefício individual tem um custo para a sociedade, e quando isso acontece, um sistema de valor social compartilhado é necessário para lidar com estas situações. Para compreendemos esse dilema melhor, vejamos um exemplo baseado em um ensaio intitulado A tragédia dos bens comuns, de Hardin. • • • • • • • 1 Considere que existe um campoaberto, excelente para a pastagem, compartilhado por todos os moradores de uma aldeia. Como esse é um campo compartilhado, um aldeão considera colocar suas vacas para pastar nesse local. Assim, não precisará gastar dinheiro comprando mais área de pastagem e poderá se dar ao luxo de manter mais vacas. Desse modo, o gado desse aldeão poderá usar tanto a grama do campo compartilhado quanto a de sua própria terra. 2 Se todos na aldeia fizerem esse mesmo julgamento e tiverem a mesma atitude, logo o campo ficará exaurido. Ninguém terá o cuidado de revitalizá-lo e, em breve, se tornará um terreno baldio em vez de um prado exuberante. A única maneira de evitar esse destino é se todos os aldeões concordarem em cumprir algumas regras sobre como usufruir bens comuns sem explorá-los excessivamente. 3 Concluímos, portanto, que uma regra limita o que podemos fazer, ou seja, existe um custo associado ao fato de a seguirmos. Mas talvez ainda queiramos ter uma regra em vigor se o custo de a seguir for menor do que o benefício caso todos sigam a mesma regra. Isso é o que nos faz ter um benefício econômico com esses valores compartilhados que impulsionam as regras que regulam nosso comportamento. A forma como os cientistas de dados constroem seus modelos pode ter implicações reais na vida das pessoas. Uma boa ciência de dados começa em casa Neste vídeo, vamos conhecer argumentos para entender por que cabem aos cientistas de dados o papel de promover a ética. Conteúdo interativo Acesse a versão digital para assistir ao vídeo. A ética não é uma lista de coisas que devem ou não ser feitas. O cientista de dados deve se perguntar se suas ações afetarão outros indivíduos e se esses efeitos são aceitáveis. Isso significa criar um espaço para a discussão e para a dissidência, garantir que as consequências são medidas em cada etapa de um projeto. Seria mais fácil apenas dizer que as aplicações não devem coletar dados sobre raça, gênero ou deficiências. Mas ao seguir essa linha, teríamos dificuldade em testar se as aplicações são justas para essas pessoas. Para colocarmos em prática os princípios éticos, precisamos de espaço para sermos éticos. É de extrema importância que profissionais e organizações pautem discussões sobre o significado da ética, o seu custo e as soluções a serem implantadas. Precisamos de culturas corporativas que considerem discussões a respeito de justiça, uso adequado dos dados e danos causados pelo uso inadequado. Isso também significa, porém, que não podemos apressar os produtos sem considerar as consequências não intencionais do uso dos dados. O grande desafio por trás de todas essas preocupações é o ambiente corporativo, o qual pode ser hostil a qualquer outra coisa que não seja lucratividade em curto prazo e mudanças na cultura corporativa não acontecem rapidamente. O problema com os princípios éticos é que é fácil esquecê- los quando se está terminando um projeto em um cronograma apertado. Quando o fim do prazo se aproxima, é muito fácil esquecer tudo o que se aprendeu sobre ética, mesmo que essa ética contenha soluções para problemas do mundo real. A responsabilidade individual não é suficiente. A ética precisa fazer parte da cultura de uma organização. O pensamento ético é importante com ou sem apoio da empresa, mas é mais provável que faça a diferença quando a ação ética é um valor corporativo. As pessoas querem se relacionar com organizações nas quais possam confiar, ou seja, naquelas que não irão tirar vantagens injustas delas. Elas querem lidar com empresas que tratem de seus dados de maneira responsável, não apenas como lucro potencial. Aos cientistas de dados cabe o papel de promover a ética. É necessário viver valores éticos e não apenas falar sobre eles. É necessário pensar cuidadosamente as consequências do seu trabalho. Isso é o que significa fazer uma boa ciência de dados. A única maneira de criar uma cultura ética é vivê-la. A mudança não acontecerá magicamente, nem será fácil – mas é necessária. (LOUKIDES, 2018, p. 42) Da teoria à prática Neste vídeo, vamos observar uma correlação entre teoria e prática da ética em ciência de dados, para aplicação da ética em CD. Conteúdo interativo Acesse a versão digital para assistir ao vídeo. Muito se fala a respeito da tecnologia de um produto ou da experiência do usuário, mas dificilmente se gasta a mesma energia para a construção de um produto de dados de forma responsável que coloque o usuário no centro da conversa. Infelizmente, são comuns as notícias de que as pessoas “não confiam” nos produtos de dados que usam. Essa falta de confiança ocorre devido a anúncios maliciosos, a conteúdo falso e enganoso e à cultura de “agir primeiro e pedir profundas desculpas depois”. Mas como é possível restaurar a confiança depois de quebrada? Recuperar a confiança perdida leva tempo e a única maneira de isso acontecer é ser confiável. Não há um modo simples de reconquistar a confiança dos usuários, mas um bom ponto de partida é tratar os dados dos outros como você gostaria que outros tratassem os seus dados. Colocar isso em prática diante do processo real de pesquisa e desenvolvimento é um desafio. Precisamos de diretrizes para forçar discussões com as equipes de desenvolvimento de aplicativos, usuários de aplicativos e aqueles que podem ser prejudicados pela coleta e uso de dados. Conheça a seguir algumas diretrizes que nos ajudam a pensar sobre a construção de produtos de dados. Consentimento Não é possível estabelecer uma relação de confiança entre as pessoas que fornecem dados e as pessoas que os usam sem um acordo sobre quais dados estão sendo coletados e como serão usados. Esse acordo é estabelecido com a obtenção do consentimento para coletar e usar dados. Clareza É preciso ter clareza sobre quais dados estão sendo coletados, o que será feito com eles e quaisquer consequências posteriores de como serão usados. Frequentemente, as explicações sobre quais dados são coletados ou vendidos são enterradas em longos documentos legais que raramente são lidos com atenção. Controle Após fornecer os dados para determinado serviço, o usuário deve ser capaz de entender o que está acontecendo com suas informações. Com muita frequência, os indivíduos não têm controle efetivo sobre como seus dados são usados. Portanto, deve lhe ser dada a possibilidade de reduzir a quantidade de dados fornecidos ou até mesmo excluí-los. Como vimos, os dados podem melhorar nossas vidas de diversas maneiras, desde boas recomendações de filmes até consolidar dados médicos de pacientes em todo o mundo a ponto de alcançarmos um progresso significativo no tratamento de doenças como o câncer. Mas essas vantagens devem ser acompanhadas com a garantia de consentimento, controle e clareza. Verificando o aprendizado Questão 1 Imagine que você vá à praia e encontre placas explicitamente pedindo que não deixe lixo na areia. As placas também informam que, caso você seja pego jogando lixo na areia, será multado. Minutos depois, você encontra uma lata de refrigerante vazia que alguém deixou na praia e isso o deixa muito chateado, então decide deixar sua própria lata de refrigerante vazia na areia também. Podemos considerar sua atitude como: A Legítima. B Legal e ética. C Legal, mas antiética. D Ilegal, mas ética. E Ilegal e antiética. A alternativa E está correta. Sua ação foi ilegal, pois você infringiu a lei e pode ser multado por isso. Além disso, você foi antiético, pois uma única exceção não significa que não haja um valor social compartilhado de não jogar lixo na praia. Questão 2 Uma empresa que desenvolve soluções de ciência de dados com informações pessoais de seus clientes, e que é pautada por princípios éticos, certamente vai colher bons frutos. Selecione a opção que melhor sustenta essa afirmação. A Agir de forma ética e transparente com dados pessoais garante que a empresa tenha boas relações com seus clientes. B Agir de forma ética e transparente com dados pessoais diminui gastos com processos judiciais. C Agir de formaética e transparente com dados pessoais garante um bom faturamento. D Agir de forma ética e transparente com dados pessoais é uma vantagem competitiva. E Agir de forma ética e transparente com dados pessoais possibilita a empresa realizar um IPO. A alternativa A está correta. Empresas com práticas honestas e éticas são altamente valorizadas pelos clientes, pela administração e pela equipe. Os clientes sempre irão preferir fazer negócios com uma empresa confiável, e isso terá um impacto multiplicativo em seus resultados e reputação. 4. Sucesso em ciência de dados Pilares do sucesso Neste vídeo, vamos conhecer os pilares do sucesso em CD. Conteúdo interativo Acesse a versão digital para assistir ao vídeo. É possível que as questões de cunho técnico ou político interfiram em um projeto de ciência de dados de tal maneira que pode levá-lo ao fracasso. Essas questões atolam o projeto de modo que ele não entregue resultados úteis. O sucesso de um projeto de ciência de dados depende de uma série de fatores que vão desde a experiência para testar múltiplos modelos de machine learning até o apoio de uma gerência sênior. Outro fator importante que as organizações precisam entender é atualização regular dos modelos. Existem ainda muitos outros fatores determinantes para o sucesso de um projeto de ciência de dados. Ao agruparmos todos esses fatores, podemos concluir que projetos bem-sucedidos de ciência de dados estão alicerçados em três pilares: Foco Dados de qualidade Pessoas qualificadas Uma rachadura em qualquer um desses pilares provavelmente resultará em um projeto fracassado. Vamos examinar cada um desses três pilares com mais detalhes. Foco Todo projeto de ciência de dados começa definindo claramente o problema que o projeto vai ajudar a resolver. É senso comum que, para um projeto ser bem-sucedido, é necessário que ao menos se tenha um objetivo claro. Um objetivo bem definido influencia nas decisões sobre quais dados usar, qual algoritmo de machine learning é o mais indicado, como avaliar os resultados e como a análise e os modelos serão usados e implantados. Dados Não basta ter muitos dados, precisamos dos dados certos para cada pergunta que vamos responder. A compreensão clara de quais dados são necessários nos ajuda a direcionar o projeto no qual esses dados estão localizados. Também nos ajuda a definir quais dados estão atualmente indisponíveis e, portanto, a identificar alguns projetos adicionais que podem procurar capturar e tornar disponíveis esses dados. É essencial garantir que os dados utilizados sejam de boa qualidade. Resultados de má qualidade são consequência de diversos fatores, como aplicações mal projetadas e profissionais não treinados corretamente para garantir que bons dados sejam inseridos. A questão de dados de boa qualidade é tão importante que algumas organizações contratam pessoas para inspecionar constantemente os dados e avaliar a sua qualidade. Em seguida, alimentam ideias sobre como melhorar essa qualidade dos dados capturados pelas aplicações e pelas pessoas que os inserem. É muito difícil para um projeto de ciência de dados ser bem-sucedido sem dados de boa qualidade. • • • Pessoas Um projeto de dados bem-sucedido frequentemente envolve uma equipe de profissionais especializados em diversas competências da ciência de dados. Esses profissionais trabalham com bancos de dados, engenharia de dados, integração de dados, entre outras áreas. São gerentes de projetos, analistas de negócios e especialistas em domínio de negócios. Há também a necessidade de se ter profissionais com habilidades específicas para aplicar modelos de machine learning e para interpretar problemas do mundo real em termos de soluções voltadas para dados. Comentário Os cientistas de dados bem-sucedidos estão dispostos e aptos a trabalhar e se comunicar com a equipe de gerenciamento, os usuários finais e todos os envolvidos para mostrar e explicar o que e como a ciência de dados pode apoiar seu trabalho. É difícil encontrar profissionais que tenham tanto as habilidades técnicas necessárias quanto as habilidades de se comunicar e trabalhar com pessoas em toda uma organização. Porém, formar uma equipe composta por profissionais com essas habilidades é crucial para o sucesso dos projetos de ciência de dados nas organizações. Alguns mitos sobre a ciência de dados Neste vídeo, vamos conhecer alguns mitos em ciência de dados. Conteúdo interativo Acesse a versão digital para assistir ao vídeo. As organizações têm usufruído de muitos benefícios por meio da ciência de dados. No entanto, precisamos estar atentos a alguns detalhes a respeito da ciência de dados e entender até onde vai o seu alcance. Para isso, abordaremos agora alguns mitos criados em torno da ciência de dados. Igual aos filmes de cinema Um dos maiores mitos é a crença de que a ciência dos dados é um processo autônomo e que basta fornecer nossos dados para encontrar as respostas de todas as nossas perguntas. Uma supervisão humana qualificada é necessária durante todas as fases de um projeto de ciência de dados. O fator humano é essencial para definir um problema, projetar e preparar os dados e definir qual algoritmo de machine learning é o mais apropriado para a tarefa. Soma-se a tudo isso a necessidade da intervenção humana na interpretação crítica dos resultados da análise e no planejamento da ação apropriada a ser tomada com base nas percepções reveladas pela análise. Sem supervisão humana qualificada, um projeto de ciência de dados está fadado a não atingir os seus objetivos. Os melhores resultados da ciência de dados ocorrem quando a experiência humana e o poder dos computadores trabalham em conjunto. Com o avanço na adoção da ciência de dados pelas organizações, tornou-se um grande desafio contratar mão de obra qualificada. O talento humano na ciência de dados está em primeiro plano, e a obtenção desse talento é atualmente o principal gargalo para a adoção da ciência de dados. Tamanho não é tudo Outro mito é que todo projeto de ciência de dados, para ser desenvolvido, precisa de um grande volume de dados. Em geral, ter mais dados ajuda, mas ter os dados corretos é o requisito mais importante. Uma organização não precisa ter a mesma quantidade de dados que o Google ou o mesmo poder de processamento que a Amazon. É totalmente viável para organizações com menos recursos em termos de dados e poder de computação realizar projetos de ciências de dados. Portanto, uma organização não precisa lidar com terabytes de dados ou ter à sua disposição recursos computacionais maciços para se beneficiar da ciência dos dados. Parece fácil, mas é difícil Devido à facilidade de manipular muitos softwares modernos voltados para a ciência de dados, criou-se a falsa crença de que é fácil fazer ciência de dados. É inegável que os softwares de ciência de dados se tornaram mais fáceis de usar. Entretanto, essa facilidade de uso pode esconder o fato de que fazer ciência de dados adequadamente requer o conhecimento do domínio do problema, a experiência em relação ao tratamento dos dados e o conhecimento para a escolha do algoritmo de machine learning. Comentário Nunca foi tão fácil fazer mal à ciência de dados. O perigo está no fato de que, por se sentirem intimidadas pela tecnologia, as pessoas passam a crer em qualquer resultado que o software apresente a elas. Um problema pode ser involuntariamente enquadrado de forma equivocada, assim como podem ser usados dados errados e até mesmo técnicas de análise com suposições inadequadas. Portanto, os resultados que o software apresenta podem ser a resposta à pergunta errada ou basear-se em dados errados ou no resultado do cálculo errado. Nem tudo são flores Há ainda a falsa crença de que a ciência dos dados se paga por si mesma rapidamente. A verdade dessa crença depende do contexto da organização. A adoção da ciência de dados pode exigir investimentos significativos em termos de desenvolvimento de infraestrutura de dados e contratação de pessoal com formação e experiênciaem ciência de dados. É preciso que todos os envolvidos estejam cientes de que a ciência de dados não dará resultados positivos em todos os projetos. Às vezes, não há um tesouro oculto nos dados, e sim em contextos de um problema bem compreendido, em dados apropriados e na experiência humana, então a ciência de dados poderá fornecer a resposta que dará à organização a vantagem competitiva de que precisa para ter sucesso. Verificando o aprendizado Questão 1 Quais são os três pilares para o sucesso de um projeto de ciência de dados? A Investimento, deep learning e apoio da gerência sênior. B Foco, dados e apoio da gerência sênior. C Pessoas, big data e banco de dados. D Dados, apoio da gerência sênior e deep learnig. E Foco, dados e pessoas. A alternativa E está correta. É necessário ter claro o objetivo do projeto (foco), um time interdisciplinar que possua habilidades técnicas e não técnicas (pessoas) e dados certos e de boa qualidade (dados). Questão 2 Assinale a alternativa que corresponda a uma falsa crença atribuída à ciência de dados. A Ter muitos dados é bom, mas é preciso ter os dados certos e com qualidade. B As técnicas de ciência de dados estão tão avançadas que dispensam a intervenção humana. C É necessário ter o conhecimento para determinar qual algoritmo de machine learning melhor se enquadra a determinado projeto. D Nem todo projeto de ciência de dados resultará em uma grande descoberta. E Pessoas podem se sentir intimidadas pela tecnologia e involuntariamente cometer erros. A alternativa B está correta. Apesar dos avanços da inteligência artificial, a intervenção humana é essencial em todas as fases de um projeto de ciência de dados. 5. Conclusão Considerações finais Certamente, é um momento empolgante para estudar ciência de dados. O trabalho em andamento nas fronteiras relativamente desconhecidas da computação paralela e distribuída oferece grande potencial para aproveitar o conhecimento encontrado no dilúvio de dados. Os tópicos estudados fornecem a base para que você possa compreender métodos mais avançados da ciência de dados. Agora é sua responsabilidade continuar aprendendo e adicionando ferramentas à sua caixa de ferramentas. Nos próximos anos, será interessante ver como iremos lidar com a questão ética em relação aos nossos dados. Até que ponto vale a pena tirar proveito da ciência de dados em detrimento da privacidade? Ao longo do seu caminho profissional, lembre-se de que sempre haverá um elemento humano na ciência de dados, adicionando conhecimento específico do assunto e a capacidade de escolher o algoritmo apropriado para a tarefa em questão. Esperamos que a viagem pelo mar da ciência de dados tenha sido proveitosa! Podcast Ouça agora um resumo sobre o que é a ciência de dados, e conheça novos casos e aplicações. Conteúdo interativo Acesse a versão digital para ouvir o áudio. Explore + Confira as indicações que separamos especialmente para você! Pesquise o artigo Is Data Scientist Still the Sexiest Job of the 21st Century? e veja se o cientista de dados ainda é o trabalho mais sexy do século XXI. Pesquise na internet os 5 TED Talks para quem busca trabalhar com ciência de dados. Depois assista a cada um deles e reflita como você pode planejar melhor sua carreira neste mundo com cada vez mais dados. Referências CIMATTI, B. Definition, development, assessment of soft skills and their role for the quality of organizations and enterprises. International Journal for Quality Research, 2016. COUTURE, H. D.; KEYES, M. Instrument Society of America. Advances in Instrumentation, 1969. DAVENPORT, T.; PATIL, D. Data Scientist: The Sexiest Job of the 21st Century. Harvard business review, 2012. DOYLE, A. C. The Complete Sherlock Holmes and Tales of Terror and Mystery. New York: Bantam Books, 1986. IANSITI, M.; LAKHAMI, K. R. Competing in the age of AI – How machine intelligence changes the rules of business. Harvard Business Review, 2020. KELLEHER, J. D.; TIERNEY, B. Data Science – The MIT Press Essential Knowledge series. [s.l.]: MIT Press, 2018. LOHR, S. For Today’s Graduate, Just One Word: Statistics. New York Times, 5 aug. 2009. Consultado na internet em: 13 mar. 2023. LOUKIDES, M.; MASON, H; PATIL, D. J. Ethics and Data Science. [s.l.]: O'Reilly Media, 2018. LOUKIDES, M.What Is Data Science? – The future belongs to the companies and people that turn data into products. [s.l.]: O'Reilly Media. 2010. TUKEY, J. W. The Future of Data Analysis. The Annals of Mathematical Statistics, 1962.