ITPub博客

首页 > 数据库 > Oracle > oracle全文索引之FILTER_3_FORMAT_COLUMN

oracle全文索引之FILTER_3_FORMAT_COLUMN

原创 Oracle 作者:jolly10 时间:2009-05-18 11:07:36 0 删除 编辑

这篇文章继续介绍全文索引的FILTER属性,介绍对不同类型的数据采用不同类型的FILTER属性的方法。

如果Oracle索引的文档包括多种类型,比如doc文件、html文件、pdf文件、纯文本文件等等。由于Oracle不建议对HTML、XML和纯文本文件使用INSO_FILTER,因此没有一个统一适用的FILTER属性适合所有的文档。

[@more@]Oracle提供了一种FORMAT列的方法,通过设置FORMAT列的内容可以通知Oracle建立何种FILTER甚至是不建立索引。

下面看一个简单的例子:

[oracle@rhel140 ~]$ sqlplus myuser/myuser

SQL*Plus: Release 10.2.0.1.0 - Production on Sun May 17 21:35:01 2009

Copyright (c) 1982, 2005, Oracle. All rights reserved.


Connected to:
Oracle Database 10g Enterprise Edition Release 10.2.0.1.0 - Production
With the Partitioning, OLAP and Data Mining options

SQL> CREATE TABLE T (ID NUMBER, TYPE VARCHAR2(6), DOCS VARCHAR2(100));

Table created.

SQL> INSERT INTO T VALUES (1, 'BINARY', 'pdf.pdf');

1 row created.

SQL> INSERT INTO T VALUES (2, 'TEXT', 'OUTPUT.TXT');

1 row created.

SQL> INSERT INTO T VALUES (3, 'IGNORE', 'doc1.doc');

1 row created.

SQL> COMMIT;

Commit complete.

SQL> BEGIN
2 CTX_DDL.CREATE_PREFERENCE('TEST_FILE', 'FILE_DATASTORE');
3 CTX_DDL.SET_ATTRIBUTE('TEST_FILE', 'PATH', '/home/oracle');
4 END;
5 /

PL/SQL procedure successfully completed.

SQL> CREATE INDEX IND_T_DOCS ON T (DOCS) INDEXTYPE IS CTXSYS.CONTEXT
2 PARAMETERS ('DATASTORE TEST_FILE FILTER CTXSYS.INSO_FILTER FORMAT COLUMN TYPE');

Index created.

SQL> SELECT * FROM T WHERE CONTAINS(DOCS, 'ORACLE') > 0;

ID TYPE
---------- ------
DOCS
--------------------------------------------------------------------------------
2 TEXT
OUTPUT.TXT

1 BINARY
pdf.pdf


'doc1.doc'文档中有'ORACLE'字符串没有被查到,是因为'IGNORE'起了作用。
发现表T的列TYPE的值很重要,是因为FORMAT COLUMN指定为“TYPE”列,设置为BINARY的文档使用INST_FILTER,设置为TEXT的文档使用NULL_FILTER,设置为IGNORE的文档不进行索引。


SQL> update t set type='BINARY' where id=3;

1 row updated.

SQL> commit;

Commit complete.

SQL> exec ctx_ddl.sync_index('IND_T_DOCS');

PL/SQL procedure successfully completed.

SQL> SELECT * FROM T WHERE CONTAINS(DOCS, 'ORACLE') > 0;

ID TYPE
---------- ------
DOCS
--------------------------------------------------------------------------------
2 TEXT
OUTPUT.TXT

1 BINARY
pdf.pdf

sync过还是查询不到,需要做rebuild

SQL> alter index IND_T_DOCS rebuild;

Index altered.

SQL> SELECT * FROM T WHERE CONTAINS(DOCS, 'ORACLE') > 0;

ID TYPE
---------- ------
DOCS
--------------------------------------------------------------------------------
1 BINARY
pdf.pdf

2 TEXT
OUTPUT.TXT

3 BINARY
doc1.doc

来自 “ ITPUB博客 ” ,链接:http://blog.itpub.net/271283/viewspace-1022213/,如需转载,请注明出处,否则将追究法律责任。

请登录后发表评论 登录
全部评论

注册时间:2008-02-20

  • 博文量
    263
  • 访问量
    772158