梦的巢

暂无签名

  • 博客访问: 37781
  • 博文数量: 8
  • 用 户 组: 普通用户
  • 注册时间: 2013-07-16 20:18
个人简介

暂无介绍

ITPUB论坛APP

ITPUB论坛APP



APP发帖 享双倍积分

文章分类

全部博文(8)

文章存档

2013年(8)

我的朋友
微信关注

IT168企业级官微



微信号:IT168qiye



系统架构师大会



微信号:SACC2013

订阅
热词专题
informatica 厂商培训资料 2013-08-28 21:10:36

分类: Linux

1informaticadomainnode的理解:

   domain 类似于局域网,node就是局域网中的节点或者计算机。

   node应与repository在数据库中存储在不同的scheme中,此处nodeinformatica操作的内容。

2informaticaRepository Service Intergration Service

   IS:工作引擎;RS:管理引擎,管理repository

   ISRS工作流程为:客户端发请求到ISIS调用RS完成各种ETL操作,其中,RS工作过程中会访问repository进行元数据信息、T规则等访问,并将taskworkflow的结果状态等存储到repository

   一般一个IS对应一个node,当一个一个IS要对应多个node时,涉及grid,将多个node放在一个grid下,一个grid对应一个IS

3serverclientdriver配置

   一般配置driver时,尽可能选择native dirvernative dirver的性能高于ODBC,但是ODBC的兼容性和适用性高。

   server driver:用于ETL过程中实际存取读写数据;

   client driver:用于导入source/target 表,即元数据。

4informatica中数据处理方式为并行处理,即管道式处理。

5、分区

   分区使处理方式由单线程变成多线程,一个连接变成多个连接。

   分区后,当使用汇总、关联等组件时informatica可自动保证数据结果的正确性。

   在汇总、关联之前,若数据已进行排序,且组件中已排序属性已勾选,则数据为流式通过;否则,需数据全量到达然后进行处理。

6、集群:

   informatica既可支持单机,也可建立集群环境。而且,集群环境可以异构,即不限定OS,version等;

   在集群环境中,任务可通过以下三种方式分发:

   第一种:轮询;

   第二种:动态控制,需在config文件中进行配置;

   第三种:建立tasknode的映射表(,然后在config文件中进行配置该映射表?)。

   无论采取哪种方式,都可以保证task的执行顺序,因为task的执行顺序是由repositoryworkflow表(表名貌似是OPB_WORKFLOW)存储。

7、增值服务组件:HA,可自动接管坏点

   启用方式为:运行workflow时以auto recovery方式运行;

   要求:需在磁盘中建立共享存储,并配置主从节点。

8、规则文档映射

   informaticamapping可导出成excel文件,并包含各种transformation rule

   使用方式:在客户端repository组件中,选择要导出的mapping,右键菜单 export metadata

9、批量开发

   利用visio组件,可实现批量ETL过程开发,尤其适用于平推。(具体转化方式不详)

10CDC 增量采集

   主要适用于可做增量logDB,如 oracle。先capture,然后apply。(具体抓取方式需查询相关文档)

11、下推优化:

   指导方针:平衡DB sever informatica server的负载。

   原理:将下推部分转化成sql,在DB中实现。可实现source下推和target下推。

   使用方法:sessionmapping 菜单下有pushdown 选项。

12、数据校验插件 data validation

   可创建valid rule,代替手工校验。

13、前瞻监控 rulepoint

14、调优:

    1、减少port field

    2、减少过程中数据量,尽早filter

    3、避免不必要排序,sort is expensive

    4expression 中符号比表达式性能高

       expression 中有变量端口,可生成中间量,重复使用

       expression中尽量少嵌套,可用高级函数代替

    5、尽量避免类型转换

    6high precision is expensive

15read write transformation 的统计信息除了在workflow monitor中,session log中也有

16session中各参数

    DTM memorysession占用的全部内存(内存块个数)

    buffer block size:内存块大小(mapping中所有source的数据量的整数倍)

    line sequential buffer length:当源是文件时,文件记录长度

    max memory:最大内存块数

17session 调优:

    尽量关闭日志;

    目标加载前利用pre sql 删除索引约束,加载完成后利用post sql 重建索引约束;

    提交间隔可稍微设置大一些;

    关闭统计信息收集;

    设置各种参数;

    数据装载方式尽量选择loader

18temp文件与cache文件的区别:

    具体参见各组件使用的文件夹配置名称,如sort组件使用temp文件夹,join组件使用cache文件夹。

阅读(7866) | 评论(0) | 转发(1) |
0

上一篇:INFORMATICA关于WORKFLOW Manager系统的元数据解析

下一篇:没有了

给主人留下些什么吧!~~
评论热议
请登录后评论。

登录 注册