ITPub博客

首页 > Linux操作系统 > Linux操作系统 > 关于非结构化数据

关于非结构化数据

原创 Linux操作系统 作者:bailuotuo 时间:2008-03-25 21:35:15 0 删除 编辑

结构化数据主要包括由字母、数字、字符、文字组成的文本和超文本,非结构化数据通常是指声音、图形和图像数据

Unstructured data and Unstructured ETL

IT的整天和数据打交道,无非就两种:结构化数据和非结构化数据。结构化数据可以很轻松的被导入到数据仓库中,因为不管是3NF还是星型模型,它们在结构上都属于结构化数据。而非结构化数据包括e-mail,spreadsheet,text,documents,reports。结构化和非结构化有很多的不同,而要想把这些非结构化数据利用到数据仓库中,一定要先解决下面的问题:

ü        在结构化数据中可以保证的完整性、一致性如何在非结构化数据中保证呢?

ü        如何同步非结构化中的数据呢?

ü        如何获取非结构化数据?因为可能需要从包括.txt/.pdf/.doc/email等格式的文件中取得数据。

ü        如何获取有用的信息?在doc文件中有很多文字都是没有用的,如何定位到你确切需要的信息呢?

ü        如何对非结构化中的数据进行操作?

ü        非结构化的数据如何与结构化数据集成?同样都是一个词,它们在各自的环境下代表的含义一样吗?

我们通过ETL工具来进行结构化数据到数据仓库的抽取,那么就应该用非结构化的ETL工具来实现从非结构化数据到数据仓库的抽取,那么非结构化ETL工具就一定要解决上述问题。

有需求就会有解决方法。现在设计的数据仓库能真正利用txt信息的就不多,而且我们一般都是通过人工的方法把一些文本信息采集到数据仓库中。不知是否还有哪些更有效的方法呢?

 

 

Unstructured Data

非结构化数据

在大多数企业里,80%的数据是非结构化的,只有20%是结构化的。而第一代数据仓库中的数据100%来自结构化环境。在非结构化环境中也存在着大量重要的信息。这些信息被第一代数据仓库给忽略了。

我们无法将对数据仓库环境中有用并且可用的非结构化数据立刻转化成结构化的数据,事实上,这个过程包括很多问题。为了解决这个问题而使用搜索引擎是一个无意义的尝试。在数据仓库环境中,数据仓库设计者会使用记录、表、属性、索引等来描述问题,但是在非结构化环境中没有这些内容。在写Email和打电话时都不需要遵守这些规则。

对于非结构化环境,使用搜索引擎有很多缺点:

-查询出太多的数据。

-将数据与其上下文环境中脱离。

-不知道如何为数据仓库环境组织数据。

-不知道如何将搜索到的数据与数据仓库环境中的数据相关联。

-不知道如何处理同义词。

-不知道如何处理同形异义词。

-不知道如何去处理可替换的拼写方式。

-不知道如何去显示数据。

我们要做的不仅仅是访问非结构化数据,而是要访问、整合这些数据,并且将其转化成适合数据仓库环境访问的格式。

我们需要通过一系列的处理将非结构化数据转化成整合的结构化数据,使这些非结构化数据以关系表的形式进入结构化环境。这些关系表与非结构化数据相关联,也与数据仓库的中的保存结构化的表相关联。

这些非结构化数据由于已经被转化为一系列的关系表,所以能访问关系表的标准化工具都可以访问这些非结构化数据。标准化的工具如Business ObjectsCognosMicroStrategyCrystal Reports等都可以访问这些以关系表保存的数据。

第一代数据仓库和第二代数据仓库之间最大的一个区别就是关于非结构化数据的保存问题。第一代数据仓库中没有保存非结构化数据,第二代数据仓库有全面的数据需求,所以将非结构化数据也保存入数据仓库之中。

 

 

来自 “ ITPUB博客 ” ,链接:http://blog.itpub.net/7642859/viewspace-217866/,如需转载,请注明出处,否则将追究法律责任。

请登录后发表评论 登录
全部评论

注册时间:2008-02-29

  • 博文量
    45
  • 访问量
    90252