Descrição
Apostila Concurso IPEA 2024 Ciência Dados
Cargo: Ciência de Dados
Editora: DOMINA CONCURSOS
Edição: 2024
Nível: Superior
Banca: ESGRANRIOF
Edital: Acesso ao Edital
Quantidade de Páginas: 1365
Não é só uma apostila!
Material teórico completo elaborado totalmente de acordo com o novo edital.
Acompanha provas anteriores com gabarito para testar seu aprendizado.
Só hoje, de R$103,98 por R$51,99
50% de Desconto
Conhecimento Básico
(Totalmente de Acordo com Edital 2023)
LÍNGUA PORTUGUESA: 1. Compreensão e interpretação de textos; 2. Tipologia textual; 3. Ortografia oficial; 4. Acentuação gráfica; 5. Emprego das classes de palavras; 6. Emprego do sinal indicativo de crase; 7. Sintaxe da oração e do período; 8. Pontuação; 9. Concordância nominal e verbal; 10. Regência nominal e verbal; 11 Significação das palavras; 12. Reescrita de frases e parágrafos do texto.
LÍNGUA INGLESA: 1. Compreensão, interpretação, reescrita, tradução e versão de textos.
ESTADO E POLÍTICAS PÚBLICAS: 1. Princípios, direitos e garantias fundamentais na Constituição Federal. 2. Organização política e administrativa do Estado na CF/88. 3. Poderes Legislativo, Executivo e Judiciário na CF/88. 4. Atribuições, competências e relações entre esferas de governo no regime federativo na CF/88. 5. Administração Pública na CF/88. 6. Planejamento e Orçamento na CF/88: Objetivos da República, Planos Setoriais. Plano Plurianual, Lei de Diretrizes Orçamentárias e Lei Orçamentária Anual. 7. Participação e controle social na CF/88. 8. Ética e conduta do servidor público. 9. Ciclo de políticas públicas: identificação de problemas; definição dos objetivos da intervenção; formação de agenda; formulação – diagnóstico e desenho de programas; processo decisório – definição de escopo, escala, atores envolvidos e públicos-alvo; implementação; monitoramento; avaliação.
REALIDADE BRASILEIRA ATUAL: 1. Dinâmica e estrutura demográfica do Brasil. 2. Desigualdades socioeconômicas e regionais. 3. Direitos humanos, discriminação e exclusão social, com atenção aos direitos e à situação de mulheres, crianças, adolescentes e idosos, pessoas com deficiência, indígenas, negros, pessoas LGBTQIA+, e outros grupos minoritários ou vulneráveis. 4. Novas tecnologias e transformações no mundo do trabalho. 5. Mudanças na estrutura produtiva brasileira. 6. Desenvolvimento urbano brasileiro: o crescimento das cidades e os desafios urbanos. 7. Meio ambiente e desenvolvimento sustentável
Conhecimento Específico
(Totalmente de Acordo com Edital 2023)
I.INGESTÃO, PROCESSAMENTO E ARMAZENAMENTO DE DADOS: 1. Ingestão de dados estruturados, semiestruturados e não estruturados. 2. Ingestão de dados em lote (batch). 3. Ingestão de dados em streaming. 4. Armazenamento de big data. 5. Conceitos de processamento massivo e paralelo. 6. Processamento distribuído. 7. Soluções de big data: Arquitetura do ecossistema Spark; 8. Arquitetura de cloud computing para ciência de dados (AWS, Azure, GCP). II. BANCOS DE DADOS: 1. Álgebra relacional e SQL (padrão ANSI). 2. Banco de dados relacional: SQL Server; PostgreSQL, MySQL. 3. Banco de dados NoSQL. 4. Banco de dados e formatos de arquivo orientado a colunas: Parquet, MonetDB, duckDB. III. TRATAMENTO, QUALIDADE E VISUALIZAÇÃO DE DADOS: 1. Normalização numérica. 2. Discretização. 3. Tratamento de dados ausentes. 4. Tratamento de outliers e agregações. 5. Matching. 6. Deduplicação. 7. Data cleansing. 8. Enriquecimento. 9. Desidentificação de dados sensíveis. 10. Algoritmos fuzzy matching e stemming. 11 Visualização e análise exploratória de dados. IV. LINGUAGENS DE PROGRAMAÇÃO E FRAMEWORKS: 1. Linguagem de programação R. 2. Linguagem de programação Python. 3. Linguagem de programação Scala.4. Programação funcional. 5. Programação orientada a objetos. 6. Classes de objetos e suas propriedades (vetores, listas, data.frames). 7. Manipulação e tabulação de dados (numpy, pandas, tidyverse, data.table). 8. Visualização de dados – ggplot, matplotlib. 9. Paralelização de rotinas de ciência de dados. V. PROBABILIDADE E ESTATÍSTICA: 1. Probabilidade e probabilidade condicional. 2. Independência de eventos, teorema de Bayes e teorema da probabilidade total. 3. Variáveis aleatórias e funções de probabilidade. 4. Principais distribuições de probabilidade discretas e contínuas: distribuição uniforme, distribuição binomial, distribuição Poisson e distribuição normal. 5. Medidas de tendência central e dispersão e correlação. 6 Teorema do limite central. 7. Regra empírica (regra de três sigma) da distribuição normal. 8. Diagramas causais: grafos acíclicos dirigidos; variáveis confundidoras, colisoras e de mediação. 9. Métodos e técnicas de identificação causal: Métodos experimentais RCT e de identificação quase-experimental. 10. Tipos de viés no processo gerador dos dados e soluções: Sampling bias; Selection bias; Attrition bias; Reporting bias; Measurement bias. 11. Modelos probabilísticos gráficos: cadeias de Markov; filtros de Kalman; Redes bayesianas. 12. Testes de hipóteses: teste-z; teste-t; valor-p; testes para uma amostra; testes de comparação de duas amostras; teste de normalidade (chi square); e intervalos de confiança. 13. Histogramas e curvas de frequência; Diagrama boxplot; Avaliação de outliers. VI. APRENDIZADO DE MÁQUINA: 1. Técnicas de classificação: Naive Bayes; Regressão logística; Redes neurais artificiais; Árvores de decisão (algoritmos ID3 e C4.5); e florestas aleatórias (random forest); Máquinas de vetores de suporte (SVM – support vector machines); K vizinhos mais próximos (KNN – K-nearest neighbours). 2. Avaliação de modelos de classificação: treinamento, teste, validação; validação cruzada; métricas de avaliação – matriz de confusão, acurácia, precisão, revocação, F1-score e curva ROC. 3. Técnicas de regressão:Redes neurais para regressão; Árvores de decisão para regressão; Máquinas de vetores de suporte para regressão; 4. Ajuste de modelos dentro e fora de amostra e overfitting. 5. Técnicas de agrupamento: Agrupamento por partição, por densidade e hierárquico. 6. Técnicas de redução de dimensionalidade: Seleção de características (feature selection); Análise de componentes principais (PCA – principal component analysis). 7. Processamento de linguagem natural: Normalização textual – stop words, estemização, lematização e análise de frequência de termos; Rotulação de partes do discurso, part-of-speech tagging; Modelos de representação de texto – N-gramas, modelos vetoriais de palavras (CBOW, Skip-Gram e GloVe), modelos vetoriais de documentos (booleano, TF e TF-IDF, média de vetores de palavras e Paragraph Vector); Métricas de similaridade textual – similaridade do cosseno, distância euclidiana, similaridade de Jaccard, distância de Manhattan e coeficiente de Dice. 8. Redes neurais convolucionais e recorrentes. 9. Bibliotecas para machine learning: Scikit-learn; TensorFlow; PyTorch; Keras.
Apostila Concurso IPEA 2024 Ciência Dados