English 中文(简体)
ETL Testing - Interview Questions
  • 时间:2024-03-23 21:29:16

ETL Testing – Interview Questions


Previous Page Next Page  

ETL为外延、变换和Load。 这是数据储存系统的一个重要概念。 用于从交易系统或应用程序等不同数据来源提取数据。 适用于数据转换规则,使之适合分析报告。 程序涉及将数据输入目标系统,通常是数据仓库。

参与ETL周期的三个层次是:

    循环层用于储存从不同来源数据系统提取的数据。

    。 整合层将数据从中层转换成一个数据库,将数据整理成等级组,经常称为dimensions,并形成事实和综合事实。 DW系统中的事实和内容表合在一起,称为schema

    终端用户利用接入层检索数据以进行分析报告。

一种ETL工具用于从不同数据来源提取数据,将数据转换成DW系统。 相比之下,一个书目信息系统工具被用于为终端用户编制互动和临时报告,为高级管理层制作仪表板,为每月、季度和每年的董事会会议提供数据图像。

最常见的电子设备工具包括:SAP BO数据服务(BODS)、Informatica、Microsoft - SSIS、Oracle Data Integrator ODI、Talend 开放式演播室、Lover ETL 公开来源等。

大部分共同的BI工具包括SAP Business Object、SAP Lumira、IBM Cognos、JasperSoft、微软BI平台、表U、Oracle Business Intelpgence Business Edition等。

市场上可用的普通电子金融工具是:

    Informatica − Power Center

    IBM − Websphere DataStage (Formerly known as Ascential DataStage)

    SAP − Business Objects Data Services BODS

    IBM − Cognos Data Manager (Formerly known as Cognos Decision Stream)

    Microsoft − SQL Server Integration Services SSIS

    Oracle − Data Integrator ODI (Formerly known as Sunopsis Data Conductor)

    SAS − Data Integration Studio

    Oracle − Warehouse Builder

    ABInitio

    Open source Clover ETL

老龄化区是一个中间区,位于数据来源和数据仓/数据层系统之间。 改造区可以提供许多好处,但使用这些好处的主要动机是提高电子征聘流程的效率,确保数据的完整性,支持数据质量操作。

与数据开采相比,数据储存是一个更广泛的概念。 数据开采涉及从数据中提取隐性信息,并用于未来预测。 相比之下,数据仓包括分析报告等业务,以生成详细的报告和临时报告,处理信息,生成交互式仪表板和图表。

OLTP是在线交易处理系统,该系统通常是一个关系数据库,用来管理日常交易。

法律事务厅负责在线分析处理系统,该系统通常是一个多层面系统,也称为数据仓库。

公司向客户出售产品。 每次销售都发生在公司内部,事实表被用来记录这些事实。 每个情况表都储存主要关键内容,以纳入情况表和措施/策略。

- 事实——大学

Cust_ID Prod_Id Time_Id No. of units sold
101 24 1 25
102 25 2 15
103 26 3 30

内容表储存了在事实表中描述物体的特性或层面。 这是一份事实表的一套对应表格。

Cust_id Cust_Name Gender
101 Jason M
102 Anna F

数据仓是一种简单的数据仓库形式,侧重于一个功能区。 它通常只从几个来源获得数据。

在一个组织中,金融、营销、人力资源以及储存与其具体职能相关的数据的其他个别部门可能都有数据。

汇总功能用于将单列的多行归类为更重要的衡量尺度。 当我们节省数据仓库的汇总表格时,这些表格也用于优化业绩。

共同综合职能是:

MIN returns the smallest value in a given column
MAX returns the largest value in a given column
SUM returns the sum of the numeric values in a given column
AVG returns the average value of a given column
COUNT returns the total number of values in a given column
COUNT(*) returns the number of rows in a table

SELECT AVG(salary) 
FROM employee 
WHERE title =  developer ; 

数据定义词(DDL)用于界定数据库结构或图表。

    CREATE-在数据库中制造物体

    - 改变数据库的结构

数据采集语言(DML)说明被用于在数据库内操纵数据。

    - 从数据库中检索数据

    - 将数据列入表格

    - 在表格中更新现有数据

    - 删除表上的所有记录,保留记录空间

数据控制语言(DCL)报表用于控制数据库物体的存取。

    - 给予用户使用数据库的特权

    REVOKE - 撤销对皇家警察部队的准入特权

操作员用于说明中的具体条件,并在发言中担任多种条件的合伙人。 通用运营商类型是:

    Arithmetic Operators

    Comparison/Relational Operators

    Logical Operators

    Set Operators

    Operators used to negate conditions

共同定型操作员是:

    UNION

    UNION ALL

    INTERSECT

    MINUS

部门间业务用于合并两份选任书,但只收回选任书上通用的记录。 sect的栏目和数据型号必须相同。 我的SQL不支持InterSECT的经营者。 教派:

select * from First 
INTERSECT 
select * from second 

采矿作业结合了两次选择声明的结果,只回报了属于第一批结果的结果。 质询如下:

select * from First 
MINUS 
select * from second 

如果你执行来源减目标,目标减源,如果 que回价值,则应被视为错配。

如果退款回去价值,sect计数低于源数或目标表,则来源和指标表含有重复增长。

Group-by 条款使用选择说明,以收集类似类型的数据。 除本说明中的声明外,其他说明具有整体性质。

Syntax

SELECT dept_no, count ( 1 ) FROM employee GROUP BY dept_no;  
SELECT dept_no, count ( 1 ) FROM employee GROUP BY dept_no HAVING COUNT( 1 ) > 1;

− Employee table

Country Salary
India 3000
US 2500
India 500
US 1500

Country Salary
India 3000
India 500
US 2500
US 1500

ETL 在数据进入生产数据仓库系统之前进行测试。 有时也称为表Balancing或生产调节。

电子数据处理测试的主要目的是查明和减少数据缺陷和在分析报告处理数据之前发生的一般错误。

下表列出了数据库和电子计算法测试的主要特征及其比较。

Function Database Testing ETL Testing
Primary Goal Data vapdation and Integration Data Extraction, Transform and Loading for BI Reporting
Apppcable System Transactional system where business flow occurs System containing historical data and not in business flow environment
Common Tools in market QTP, Selenium, etc. QuerySurge, Informatica, etc.
Business Need It is used to integrate data from multiple apppcations, Severe impact. It is used for Analytical Reporting, information and forecasting.
Modepng ER method Multidimensional
Database Type It is normally used in OLTP systems It is appped to OLAP systems
Data Type Normapzed data with more joins De-normapzed data with less joins, more indexes and Aggregations.

中等职业教育测试可根据其功能分为以下几类:

    。 它涉及对来源和目标系统中的记录进行对比。

    。 它涉及源与目标系统之间的数据验证。 它还涉及数据整合和门槛值检查以及目标系统中的重复数据核对。

    它确认对来源和目标系统的物体进行测绘。 它还涉及对目标系统中的数据功能进行检查。

    它涉及为终端用户编制报告,以核实报告中的数据是否符合预期。 它涉及发现报告有出入,并核对目标系统中的数据,以便报告验证。

    它涉及确定目标系统中的数据ug和缺陷,并将报告再次用于数据验证。

    它涉及测试所有单个系统,随后将结果结合起来,以发现是否有任何偏离。

    ETL过程中的数据损失。

    数据不准确、不完整或重复。

    DW系统包含历史数据,因此数据量太大,而且实际上很复杂,无法在目标系统中进行电子语言测试。

    通常没有向电子招聘考试测试员提供在电子招聘工具中看到工作时间表的机会。 他们几乎无法获得书目信息系统的报告工具,无法在报告内看到报告和数据的最后编排。

    由于数据量太高和复杂,不得不生成和制造测试案例。

    普通电子数据处理检测器没有终端用户报告要求和信息的商务流通。

    电子计算法测试涉及目标系统中各种复杂的数据验证概念。

    有时,没有向测试者提供目标测绘信息的来源。

    不稳定的测试环境导致发展和测试进程出现拖延。

ETL测试器的主要职责包括:

    核实源系统中的表格——数字核对、数据类型核对、钥匙不缺失、重复数据。

    在装上数据之前应用转变逻辑:数据门槛验证、基核实等。

    从圣公会地区到目标系统的数据: 汇总价值和计算措施,主要领域不缺失,目标表上的数字核对表,BI报告验证等。

    测试电子设备及其部件, 测试案例——制定、设计和执行测试计划、测试案例、测试电子设备工具及其功能、测试系统等。

变革是产生、修改或通过数据的一系列规则。 转变可以分为两类:积极和被动。

在积极的转变中,一旦发生转变,随着产出而形成的增长数目就会发生变化。 这不是在被动转变过程中发生的。 信息通过作为投入提供给它的相同数目。

分割是指你将数据储存区分成部分。 通常是为了改进交易业绩。

如果你的DW系统规模庞大,则需要时间查找数据。 储存空间的分割使你能够更容易地更快地发现和分析数据。

分割可以分为两类:圆环分治和哈希分治。

在双管齐下分治中,数据在所有分治之间平均分配,因此各分治区的数量相对相同。 离职时,服务器使用散射功能,以形成分辨率,对数据进行分类。

    备忘录界定了变革规则。

    届会的定义是,在数据从源头转移到目标系统时,应指示数据。

    工作流程是一套指示服务器执行任务的指示。

    绘图是数据从来源流向目的地。

考察改革使你能够从统计文件中未界定的关系表获取数据。 它使你能够更新缓慢变化的层面表,以确定指标中是否已经有记录。

A. 导 言 拍卖钥匙是具有序列生成的、毫无意义的数字,而只是要独一无二地确定。 用户或应用并不明显。 这也是候选人的关键。

摊销钥匙的序列号没有意义。 其目的是独特地确定各行。

主要的钥匙是用来独特地确定各行。 用户可以看到这一点,可以根据要求加以改变。

在这种情况下,你可以采用检查方法。 你可以首先检查来源和指标系统中的记录数量。 选择数额和比较信息。

在这次测试中,测试者验证了数据的范围。 将检查目标系统中的所有门槛值,以确保其达到预期结果。

− Age attribute shouldn’t have a value greater than 100. In Date column DD/MM/YY, month field shouldn’t have a value greater than 12.

Select Cust_Id, Cust_NAME, Quantity, COUNT (*)
FROM Customer GROUP BY Cust_Id, Cust_NAME, Quantity HAVING COUNT (*) >1;

在没有界定主要钥匙的情况下,可能会出现重复价值。

数据重复也可能由于不正确的绘图和人工错误而发生,同时将数据从来源转移到目标系统。

回归测试是在我们改变数据转化和聚合规则,增加新的功能,帮助测试者发现新的错误时进行的。 回归测试中的数据显示的“回归”。

这三个办法是自上而下的、自下而上的和混合的。

最常见的ETL测试情景是:

    Structure vapdation

    Vapdating Mapping document

    Vapdate Constraints

    Data Consistency check

    Data Completeness Vapdation

    Data Correctness Vapdation

    Data Transform vapdation

    Data Quapty Vapdation

    Null Vapdation

    Duppcate Vapdation

    Date Vapdation check

    Full Data Vapdation using minus query

    Other Test Scenarios

    Data Cleaning

数据净化是从数据仓库中删除数据的过程。 它删除了像具有无效价值或额外空间的浏览器这样的数据。

宇宙观光灯与全球化学品统一分类法有关。 它可以与体质、体大小、肤色、配对、拼写错误、导航等有关。

它被称为“边界价值分析”相关ug。

你们可以通过创造地图变量和过滤转变来做到这一点。 您可能需要制定顺序,以便取得你所需要的具体分类记录。

它涉及将源数据和目标系统的数据与最低或无变化进行比较。 可以通过各种电子语言测试工具进行,例如Informatica的源质变。

可以通过比较来源和具体目标系统中的不同价值来检查关键数据栏。

你可以使用Minus和Intersection书进行数据完整性验证。 当你执行源减目标,减目标源,减点回价值时,它就是一个错配行的迹象。

如果退款回去价值,sect计数低于源数或目标表,则存在重复增长。

Shortcut Transformation是指一个在共有圆夹中可查的物体。 这些参考资料通常用于不同项目或环境之间共享的各种来源和目标。

在托存管理人中,通过分配“共享”地位设定了一个捷径。 之后,物体可被从这个夹子拖到另一倍。 这一过程允许对物体实行单一控制点,多个项目没有全部进口来源和目标进入其地方。

Reusable Transformation is local to a folder. − Reusable sequence generator for allocating warehouse Customer ids. It is useful to load customer details from multiple source systems and allocating unique ids to each new source-key.

当你加入单一表格时,就称为“自选”。

数据库的正常化是建立关系数据库的属性和表格,以尽量减少数据重复。

正规化涉及将表格分解成较不多余的(和较小的)表格,但不失去信息。

一个没有事实的表格是没有任何措施的事实表。 它基本上是一个交错的方面。 有两个类型的无事实表格: 一项是抓住事件,另一项是描述情况。

变化缓慢的方面是指因时间而变化的属性价值。 幼儿发展分为三类:类型1、类型2和类型3。

Advertisements