Aqui estão as perguntas da entrevista de modelagem de dados para candidatos mais novos e experientes.
1) O que é modelagem de dados?
A modelagem de dados é o processo de criação de um modelo para os dados a serem armazenados em um banco de dados. É uma representação conceitual de objetos de dados, a associação entre diferentes objetos de dados e as regras.
2) Explicar vários tipos de modelos de dados
Existem basicamente três tipos diferentes de modelos de dados:
Conceitual: o modelo de dados conceituais define o que o sistema deve conter. Esse modelo é normalmente criado por interessados de negócios e arquitetos de dados. O objetivo é organizar, definir o escopo e definir os conceitos e regras de negócios.
Lógico: define como o sistema deve ser implementado independentemente do SGBD. Este modelo é normalmente criado por arquitetos de dados e analistas de negócios. O objetivo é desenvolver um mapa técnico de regras e estruturas de dados.
Físico: este modelo de dados descreve como o sistema será implementado usando um sistema DBMS específico. Este modelo é normalmente criado por DBA e desenvolvedores. O objetivo é a implementação real do banco de dados.
3) Explique a tabela de fatos e fatos
O fato representa dados quantitativos. Por exemplo, o valor líquido devido. Uma tabela de fatos contém dados numéricos, bem como chaves estrangeiras de tabelas dimensionais.
4) Liste vários esquemas de design em modelagem de dados
Existem dois tipos diferentes de esquemas de esquemas de modelagem de dados: 1) Esquema em estrela e 2) Esquema em floco de neve
5) Quando você deve considerar a desnormalização?
A desnormalização é usada quando há muito envolvimento da tabela durante a recuperação de dados. É usado para construir um data warehouse.
6) Explicar dimensão e atributo
As dimensões representam dados qualitativos. Por exemplo, produto, classe, plano, etc. Uma tabela de dimensão tem atributos textuais ou descritivos. Por exemplo, a categoria e o nome do produto são dois atributos da tabela de dimensões do produto.
7) Qual é o fato menos fato?
Fato menos fato é uma tabela sem medição de fato. Ele contém apenas as chaves de dimensão.
8) O que é análise in-memory?
A análise na memória é um processo de armazenamento em cache do banco de dados na RAM.
9) Qual é a diferença entre OLTP e OLAP?
OLTP | OLAP |
OLTP é um sistema transacional online. | OLAP é um processo online de análise e recuperação de dados. |
É caracterizado por um grande número de transações online curtas. | É caracterizado por um grande volume de dados. |
OLTP usa DBMS tradicional. | OLAP usa um data warehouse. |
As tabelas no banco de dados OLTP são normalizadas. | As tabelas no OLAP não são normalizadas. |
Seu tempo de resposta é em um milissegundo. | Seu tempo de resposta é de segundos a minutos. |
OLTP é projetado para operações de negócios em tempo real. | OLAP é projetado para a análise de medidas de negócios por categoria e atributos. |
10) O que é mesa?
A coleção de linhas e colunas é chamada de tabela. Cada coluna tem um tipo de dados. A tabela contém dados relacionados em um formato tabular.
11) O que é coluna?
Coluna ou campo é um arranjo vertical de dados que contém informações relacionadas.
12) Definir dispersão de dados
Esparsidade de dados é um termo usado para definir a quantidade de dados que você tem para entidade / dimensão do modelo.
13) O que é chave primária composta?
A chave primária composta é referida ao caso em que mais de uma coluna da tabela é usada como parte da chave primária.
14) O que é chave primária?
A chave primária é uma coluna ou grupo de colunas que identificam desigualmente cada linha da tabela. O valor da chave primária não deve ser nulo. Cada tabela deve conter uma chave primária.
15) Explique a chave estrangeira
A chave estrangeira é um grupo de atributos que é usado para vincular as tabelas pai e filho. O valor da coluna da chave estrangeira, que está disponível na tabela filho, é referido ao valor da chave primária na tabela pai.
16) O que são metadados?
Os metadados descrevem os dados sobre os dados. Mostra que tipo de dados está realmente armazenado no sistema de banco de dados.
17) O que é data mart?
Um data mart é uma versão condensada de um data warehouse e é projetado para uso por um departamento específico, unidade ou conjunto de usuários em uma organização. Por exemplo, vendas de marketing, RH ou finanças.
18) O que é OLTP?
O processamento de transações online, também conhecido como OLTP, oferece suporte a aplicativos orientados a transações em arquitetura de 3 camadas. OLTP administra as transações diárias da empresa ou organização.
19) Quais são os exemplos do sistema OLTP?
Exemplos de sistema OLTP são:
- Enviando uma mensagem de texto
- Adicionar um livro ao carrinho de compras
- Reserva de passagens aéreas online
- Acesso a operações bancárias via Internet
- Entrada de pedido
20) O que é restrição de verificação?
A restrição de verificação é usada para verificar um intervalo de valores em uma coluna.
21) Liste os tipos de normalização?
Os tipos de normalização são: 1) primeira forma normal, 2) segunda forma normal, 3) terceiras formas normais, 4) boyce-codd quarta e 5) quinta formas normais.
22) O que é engenharia de dados direta?
Engenharia avançada é um termo técnico usado para descrever o processo de tradução automática de um modelo lógico em um implemento físico.
23) O que é PDAP?
É um cubo de dados que armazena dados como um resumo. Ajuda o usuário a analisar os dados rapidamente. Os dados no PDAP são armazenados de forma que os relatórios possam ser feitos com facilidade.
24) Explicar o projeto do banco de dados do esquema de flocos de neve
Um esquema em floco de neve é um arranjo de uma tabela de dimensão e uma tabela de fatos. Geralmente, ambas as tabelas são subdivididas em mais tabelas de dimensão.
25) Explicar serviço de análise
O serviço de análise fornece uma visão combinada dos dados usados na mineração de dados ou OLAP.
26) O que é algoritmo de clustering de sequência?
O algoritmo de agrupamento de sequências coleta caminhos semelhantes ou relacionados entre si e sequências de dados com eventos.
27) O que são dados discretos e contínuos?
Dados discretos são dados finitos ou dados definidos. Por exemplo, sexo, números de telefone. Dados contínuos são dados que mudam de maneira contínua e ordenada. Por exemplo, idade.
28) Qual é o algoritmo de série temporal?
O algoritmo de série temporal é um método para prever valores contínuos de dados na tabela. Por exemplo, desempenho, um funcionário pode prever o lucro ou a influência.
29) O que é Business Intelligence?
BI (Business Intelligence) é um conjunto de processos, arquiteturas e tecnologias que convertem dados brutos em informações significativas que impulsionam ações de negócios lucrativas. É um conjunto de software e serviços para transformar dados em inteligência e conhecimento acionáveis.
30) O que é índice mapeado em bits?
Os índices de bitmap são um tipo especial de índice de banco de dados que usa bitmaps (matrizes de bits) para responder a consultas executando operações bit a bit.
31) Explicar o data warehouse em detalhes
O armazenamento de dados é um processo de coleta e gerenciamento de dados de fontes variadas. Ele fornece percepções empresariais significativas. O data warehouse é normalmente usado para conectar e analisar dados de fontes heterogêneas. É o núcleo do sistema de BI, que é construído para análise de dados e relatórios.
32) O que é dimensão de lixo?
A dimensão de lixo combina duas ou mais cardinalidades relacionadas em uma dimensão. Geralmente são valores booleanos ou de sinalização.
33) Explicar o esquema de dados
Esquema de dados é uma representação diagramática que ilustra relacionamentos e estruturas de dados.
34) Explique a frequência de coleta de dados
A frequência de coleta de dados é a taxa para coletar os dados. Também passa por várias etapas. Esses estágios são: 1) extração de várias fontes, 3) transformação, 4) limpeza e 5) armazenamento.
35) O que é cardinalidade do banco de dados?
Cardinalidade é um atributo numérico da relação entre duas entidades ou conjuntos de entidades.
36) Quais são os diferentes tipos de relacionamentos cardeais?
Diferentes tipos de relacionamentos cardinais principais são:
- Relações Um-para-Um
- Relacionamentos um-para-muitos
- Relacionamentos muitos para um
- Relacionamentos muitos para muitos
37) Defina o fator crítico de sucesso e liste seus quatro tipos
O fator crítico de sucesso é um resultado favorável de qualquer atividade necessária para que a organização alcance seu objetivo.
Quatro tipos de fator crítico de sucesso são:
- CSFs da indústria
- CSFs de estratégia
- CSFs ambientais
- CSFs temporais
38) O que é mineração de dados?
A mineração de dados é uma habilidade multidisciplinar que usa aprendizado de máquina, estatística, IA e tecnologia de banco de dados. É tudo sobre descobrir relações insuspeitadas / previamente desconhecidas entre os dados.
39) Qual é a diferença entre o esquema Star e o esquema Snowflake?
Esquema Star | Esquema de Floco de Neve |
Hierarquias para as dimensões são armazenadas na tabela dimensional. | As hierarquias são divididas em tabelas separadas. |
Ele contém uma tabela de fatos cercada por tabelas de dimensão. | Uma tabela de fatos cercada por uma tabela de dimensão que, por sua vez, é cercada por uma tabela de dimensão |
Em um esquema em estrela, apenas uma única junção cria o relacionamento entre a tabela de fatos e quaisquer tabelas de dimensão. | Um esquema em floco de neve requer muitas junções para buscar os dados. |
Tem um design de banco de dados simples | Ele tem um design de banco de dados complexo |
A estrutura de dados desnormalizada e a consulta também são executadas com mais rapidez. | Estrutura de dados normalizada. |
Alto nível de redundância de dados | Redundância de dados de nível muito baixo |
Oferece consultas de alto desempenho usando Star Join Query Optimization. As tabelas podem ser conectadas com várias dimensões. | O Esquema Snow Flake é representado por uma tabela de fatos centralizada que provavelmente está conectada com várias dimensões. |
40) O que é identificar relacionamento?
A identificação de relacionamentos de entidades no SGBD é usada para identificar um relacionamento entre duas entidades: 1) entidade forte e 2) entidade fraca.
41) O que é um relacionamento auto-recursivo?
O relacionamento recursivo é uma coluna independente em uma tabela que está conectada à chave primária da mesma tabela.
42) Explicar a modelagem de dados relacionais
A modelagem de dados relacionais é a representação de objetos em um banco de dados relacional, que geralmente é normalizado.
43) O que é análise de modelagem preditiva?
O processo de validação ou teste de um modelo que seria usado para prever resultados de teste e validação. Ele pode ser usado para aprendizado de máquina, inteligência artificial e estatísticas.
44) Qual é a diferença entre o modelo lógico de dados e o modelo físico de dados?
Modelo lógico de dados | Modelo de dados físicos |
Um modelo de dados lógico pode projetar os requisitos de negócios de forma lógica. | Um modelo de dados físicos fornece informações sobre a origem do banco de dados de destino e suas propriedades. |
Ele é responsável pela implementação real dos dados armazenados no banco de dados. | Um modelo de dados físico ajuda a criar um novo modelo de banco de dados existente e a aplicar a restrição de integridade referencial. |
Ele contém uma entidade, atributos de chave primária, chaves de inversão, chave alternativa, regra, relação comercial, definição, etc. | Um modelo de dados físico contém uma tabela, restrições de chave, chave única, colunas, chave estrangeira, índices, valores padrão, etc. |
45) Quais são os diferentes tipos de restrições?
Um tipo diferente de restrição pode ser único, valores nulos, chaves estrangeiras, chave composta ou restrição de verificação, etc.
46) O que é uma ferramenta de modelagem de dados?
A ferramenta de modelagem de dados é um software que auxilia na construção do fluxo de dados e na relação entre os dados. Exemplos de tais ferramentas são Borland Together, Altova Database Spy, casewise, Case Studio 2, etc.
47) O que é DBMS hierárquico?
No banco de dados hierárquico, os dados do modelo são organizados em uma estrutura semelhante a uma árvore. Os dados são armazenados em um formato hierárquico. Os dados são representados por meio de um relacionamento pai-filho. No DBMS hierárquico, o pai pode ter muitos filhos, os filhos têm apenas um pai.
48) Quais são as desvantagens do modelo de dados hierárquico?
As desvantagens do modelo de dados hierárquico são:
- Não é flexível, pois leva tempo para se adaptar às necessidades em constante mudança do negócio.
- A estrutura coloca o problema na comunicação interdepartamental, na comunicação vertical, bem como na comunicação interinstitucional.
- O modelo de dados hierárquico pode criar problemas de desunião.
49) Explicar a abordagem orientada ao processo de modelagem de dados
A abordagem orientada a processos usada na modelagem de dados segue um método passo a passo sobre o relacionamento entre o modelo entidade-relacionamento e o processo organizacional.
50) Quais são as vantagens de usar modelagem de dados?
As vantagens de usar modelagem de dados em armazenamento de dados são:
- Ajuda a gerenciar dados de negócios normalizando-os e definindo seus atributos.
- A modelagem de dados integra os dados de vários sistemas para reduzir a redundância de dados.
- Ele permite criar um design de banco de dados eficiente.
- A modelagem de dados ajuda o departamento da organização a funcionar como uma equipe.
- Facilita o acesso aos dados com facilidade.
51) Quais são as desvantagens de usar modelagem de dados?
As desvantagens de usar modelagem de dados são:
- Tem menos independência estrutural
- Isso pode tornar o sistema complexo.
52) O que é índice?
O índice é usado para uma coluna ou grupo de colunas para recuperar dados rapidamente.
53) Quais são as características de um modelo lógico de dados?
As características do modelo lógico de dados são:
- Descreve as necessidades de dados para um único projeto, mas pode se integrar a outros modelos de dados lógicos com base no escopo do projeto.
- Projetado e desenvolvido independentemente do DBMS.
- Os atributos de dados terão tipos de dados com precisão e comprimento exatos.
- Processos de normalização para o modelo, que geralmente são aplicados tipicamente até 3NF.
54) Quais são as características do modelo físico de dados?
As características do modelo de dados físicos são:
- O modelo de dados físicos descreve a necessidade de dados para um único projeto ou aplicativo. Ele pode ser integrado a outros modelos de dados físicos com base no escopo do projeto.
- O modelo de dados contém relacionamentos entre tabelas que tratam da cardinalidade e da nulidade dos relacionamentos.
- Desenvolvido para uma versão específica de um SGBD, local, armazenamento de dados ou tecnologia a ser usada no projeto.
- As colunas devem ter tipos de dados exatos, comprimentos atribuídos e valores padrão.
- Chaves primárias e estrangeiras, visualizações, índices, perfis de acesso e autorizações, etc. são definidos.
55) Quais são os dois tipos de técnicas de modelagem de dados?
Dois tipos de técnicas de modelagem de dados são: 1) modelo de relacionamento de entidade (ER) e 2) UML (Unified Modeling Language).
56) O que é UML?
UML (Unified Modeling Language) é uma linguagem de modelagem de desenvolvimento de banco de dados de uso geral no campo da engenharia de software. A intenção principal é fornecer uma maneira generalizada de visualizar o projeto do sistema.
57) Explicar o modelo de banco de dados orientado a objetos
O modelo de banco de dados orientado a objetos é uma coleção de objetos. Esses objetos podem ter recursos associados, bem como métodos.
58) O que é um modelo de rede?
É um modelo que se baseia no modelo hierárquico. Ele permite que mais de um relacionamento vincule registros, o que indica que ele possui vários registros. É possível construir um conjunto de registros pai e registros filho. Cada registro pode pertencer a vários conjuntos que permitem que você execute relacionamentos de tabela complexos.
59) O que é hashing?
Hashing é uma técnica usada para pesquisar todos os valores do índice e recuperar os dados desejados. Ajuda a calcular a localização direta dos dados, que são gravados em disco sem usar a estrutura do índice.
60) O que são negócios ou chaves naturais?
chaves comerciais ou naturais são um campo que identifica exclusivamente uma entidade. Por exemplo, ID do cliente, número do funcionário, e-mail etc.
61) O que é chave composta?
Quando mais de um campo é usado para representar uma chave, é chamado de chave composta.
62) Qual é a primeira forma normal?
A primeira forma normal ou 1NF é uma propriedade de uma relação disponível em um sistema de gerenciamento de banco de dados relacional. Qualquer relação é chamada de primeira forma normal se o domínio de cada atributo contém valores que são atômicos. Ele contém um valor desse domínio.
63) Qual é a diferença entre chave primária e chave estrangeira?
Chave primária | Chave estrangeira |
A chave primária ajuda a identificar exclusivamente um registro na tabela. | Chave estrangeira é um campo da tabela que é a chave primária de outra tabela. |
A chave primária nunca aceita valores nulos. | Uma chave estrangeira pode aceitar vários valores nulos. |
A chave primária é um índice clusterizado e os dados da tabela DBMS são organizados fisicamente na sequência do índice clusterizado. | Uma chave externa não pode criar automaticamente um índice, clusterizado ou não clusterizado. No entanto, você pode criar manualmente um índice na chave estrangeira. |
Você pode ter a única chave primária em uma tabela. | Você pode ter várias chaves estrangeiras em uma tabela. |
64) Quais são os requisitos da segunda forma normal?
Os requisitos da segunda forma normal são:
- Deve estar na primeira forma normal.
- Ele não contém nenhum atributo não principal, que é funcionalmente dependente de qualquer subconjunto de chave candidata da relação da tabela.
65) Quais são as regras para a terceira forma normal?
As regras para as terceiras formas normais são:
- Deve estar na segunda forma normal
- Não possui dependências funcionais transitivas.
66) Qual a importância de usar as chaves?
- As chaves ajudam a identificar qualquer linha de dados em uma tabela. Em um aplicativo do mundo real, uma tabela pode conter milhares de registros.
- As chaves garantem que você possa identificar exclusivamente um registro de tabela, apesar desses desafios.
- Permite que você estabeleça uma relação e identifique a relação entre as tabelas
- Ajudá-lo a reforçar a identidade e integridade no relacionamento.
67) O que é uma chave substituta?
Uma chave artificial que visa identificar cada registro é chamada de surrogate key. Esses tipos de chave são únicos porque são criados quando você não tem nenhuma chave primária natural. Eles não conferem nenhum significado aos dados da tabela. A chave substituta geralmente é um número inteiro.
68) Explique a chave alternativa em detalhes
A chave alternativa é uma coluna ou grupo de colunas em uma tabela que identifica exclusivamente cada linha dessa tabela. Uma tabela pode ter várias opções para uma chave primária, mas apenas uma pode ser definida como a chave primária. Todas as chaves que não são chaves primárias são chamadas de chave alternativa.
69) Qual é a quarta forma normal em DBMS?
A quarta forma normal é um nível de normalização do banco de dados em que não deve haver dependência não trivial diferente da chave candidata.
70) O que é um sistema de gerenciamento de banco de dados?
O sistema de gerenciamento de banco de dados ou DBMS é um software para armazenar e recuperar dados do usuário. Consiste em um grupo de programas que manipulam o banco de dados.
71) Qual é a regra da quinta forma normal?
Uma tabela é em 5 th forma normal apenas se for em 4 th forma normal, e que não pode ser decomposto em qualquer número de tabelas menores sem perda de dados.
72) O que é normalização?
Normalização é uma técnica de design de banco de dados que organiza tabelas de uma maneira que reduz a redundância e a dependência de dados. Ele divide tabelas maiores em tabelas menores e as vincula usando relacionamentos.
73) Explicar as características de um sistema de gerenciamento de banco de dados
- Fornece segurança e remove redundância
- Natureza autodescritiva do sistema de banco de dados
- Isolamento entre programas e abstração de dados
- Suporte de múltiplas visualizações de dados.
- Compartilhamento de dados e processamento de transações multiusuário
- O SGBD permite que entidades e relações entre elas formem tabelas.
- Segue o conceito ACID (Atomicidade, Consistência, Isolamento e Durabilidade).
- O DBMS oferece suporte a um ambiente multiusuário que permite aos usuários acessar, acessar e manipular dados em paralelo.
74) Liste softwares DBMS populares
O software DBMS popular é:
- MySQL
- Microsoft Access
- Oráculo
- PostgreSQL
- dbase
- FoxPro
- SQLite
- IBM DB2
- Microsoft SQL Server.
75) Explique o conceito de RDBMS
O Relational Database Management System é um software que permite armazenar dados em forma de tabelas. Nesse tipo de sistema, os dados são gerenciados e armazenados em linhas e colunas, conhecidas como tuplas e atributos. RDBMS é um sistema de gerenciamento de dados poderoso e é amplamente usado em todo o mundo.
76) Quais são as vantagens do modelo de dados?
As vantagens do modelo de dados são:
- O principal objetivo de um modelo de dados de projeto é garantir que os objetos de dados oferecidos pela equipe funcional sejam representados com precisão.
- O modelo de dados deve ser detalhado o suficiente para ser usado na construção do banco de dados físico.
- As informações no modelo de dados podem ser usadas para definir o relacionamento entre tabelas, chaves primárias e estrangeiras e procedimentos armazenados.
- O modelo de dados ajuda as empresas a se comunicarem dentro e entre as organizações.
- O modelo de dados ajuda a documentar mapeamentos de dados no processo ETL
- Ajude a reconhecer fontes corretas de dados para preencher o modelo
77) Quais são as desvantagens do modelo de dados?
As desvantagens do modelo de dados são:
- Para desenvolver o modelo de dados, deve-se conhecer as características físicas dos dados armazenados.
- Este é um sistema de navegação que produz desenvolvimento e gerenciamento de aplicativos complexos. Assim, requer conhecimento da verdade biográfica.
- Mesmo as alterações menores feitas na estrutura exigem modificações em todo o aplicativo.
- Não existe um conjunto de linguagem de manipulação de dados no DBMS.
78) Explicar vários tipos de tabelas de fatos
Existem três tipos de tabelas de fatos:
- Aditivo: É uma medida que se agrega a qualquer dimensão.
- Não aditivo: É uma medida que não pode ser adicionada a nenhuma dimensão.
- Semi-aditivo: É uma medida que pode ser adicionada a algumas dimensões.
79) O que é tabela agregada?
A tabela agregada contém dados agregados que podem ser calculados usando funções como: 1) Média 2) MÁX, 3) Contagem, 4) SOMA, 5) SOMA e 6) MÍN.
80) O que é dimensão confirmada?
Uma dimensão conformada é uma dimensão que é projetada de uma maneira que pode ser usada em muitas tabelas de fatos em várias áreas de um data warehouse.
81) Liste os tipos de hierarquias na modelagem de dados
Existem dois tipos de Hierarquias: 1) Hierarquias baseadas em nível e 2) Hierarquias pai-filho.
82) Qual é a diferença entre um data mart e um data warehouse?
Data mart | Armazém de dados |
Data mart se concentra em uma única área de negócios. | O data warehouse se concentra em várias áreas de negócios. |
É usado para tomar decisões táticas para o crescimento do negócio. | Ajuda os proprietários de empresas a tomar uma decisão estratégica |
Data mart segue o modelo bottom-up | O data warehouse segue um modelo de cima para baixo |
A fonte de dados vem de uma fonte de dados | A fonte de dados vem de mais de uma fonte de dados heterogênea. |
83) O que é XMLA?
XMLA é uma análise XML considerada padrão para acessar dados em Online Analytical Processing (OLAP).
84) Explique a dimensão do lixo
A dimensão do lixo ajuda a armazenar dados. É usado quando os dados não são apropriados para armazenamento no esquema.
85) Explique a replicação de dados encadeados
A situação em que um nó secundário seleciona o destino usando o tempo de ping ou quando o nó mais próximo é secundário, é chamada de replicação de dados encadeados.
86) Explique o armazenamento de dados virtual
Um data warehouse virtual oferece uma visão coletiva dos dados concluídos. Um data warehouse virtual não possui dados históricos. É considerado um modelo de dados lógico com metadados.
87) Explique o instantâneo do data warehouse
Snapshot é uma visualização completa dos dados no momento em que o processo de extração de dados começa.
88) O que é um extrato bidirecional?
A capacidade do sistema de extrair, limpar e transferir dados em duas direções é chamada de extração direcional.