ITPub博客

首页 > 数据库 > Oracle > Oracle中如何判断一个字符串是否含有汉字(中文)

Oracle中如何判断一个字符串是否含有汉字(中文)

原创 Oracle 作者:lhrbest 时间:2015-06-05 13:48:42 16777215 删除 编辑

oracle中如何判断一个字符串是否含有汉字

1.1  BLOG文档结构图

 

wps3D5D.tmp 

 

1.2  前言部分

 

1.2.1  导读

各位技术爱好者,看完本文后,你可以掌握如下的技能,也可以学到一些其它你所不知道的知识,~O(∩_∩)O~:

全角字符的判断,或者是含有汉字的字符串的判断

 

 

 

本文如有错误或不完善的地方请大家多多指正,ITPUB留言或QQ皆可,您的批评指正是我写作的最大动力。

1.2.2  实验环境介绍

 

11.2.0.3  RHEL6.5

 

 

 

1.2.3  本文简介

 

 

看到网友问,怎么查询表中某个字段数据是不是包含了全角字符啊? 这个问题涉及到几个个函数:to_single_bytelengthlengthb,我之前做开发的时候研究的是如何判断一个字符串中是否包含中文,其实和这个本质是一样的,且看实验部分。

 

wps3D5E.tmp 

 

 

 

1.3  实验部分

 

1.3.1  lengthblength函数结合to_single_byte函数

---含有汉字,严格的说是含有全角字符

SELECT l.name,

       length(l.name),

       lengthb(l.name)

FROM   xb_link l

WHERE  length(l.name) != lengthb(l.name)

AND    length(l.name) < 20;

wps3D6E.tmp 

 

 

以下数据也满足条件:

 SELECT l.id,

        l.name

 FROM   xb_link l

 WHERE  length(l.name) != lengthb(l.name)

 AND    l.metacategory IN

        ('com.gxlu.ngrm.network.DDNCircuit',

          'com.gxlu.ngrm.network.FRCircuit',

          'com.gxlu.ngrm.network.ATMCircuit',

          'com.gxlu.ngrm.network.DDNOCircuit',

          'com.gxlu.ngrm.network.FROCircuit')

 AND    l.id IN ('301898331', '301898335', '301908187', '301929403');

 

wps3D6F.tmp 

所以可以借助to_single_byte函数来解决。

 

 SELECT l.id,

        l.name,

        to_single_byte(l.name),

        length(l.name) l1,

        lengthb(l.name) l2,

        length(to_single_byte(l.name)) l

 FROM   xb_link l

 WHERE  length(l.name) != lengthb(l.name)

 AND    l.metacategory IN

        ('com.gxlu.ngrm.network.DDNCircuit',

          'com.gxlu.ngrm.network.FRCircuit',

          'com.gxlu.ngrm.network.ATMCircuit',

          'com.gxlu.ngrm.network.DDNOCircuit',

          'com.gxlu.ngrm.network.FROCircuit')

 AND    l.id IN ('301898331', '301898335', '301908187', '301929403');

wps3D70.tmp 

 

1.3.2  regexp_replace --替换其它字符为’’

SELECT 

l.id,

l.name

FROM   xb_link l

WHERE  regexp_replace(TRIM(l.name),

                      '([A-Za-z0-9]|[[:punct:]]|[[:space:]])',

                      '') IS NOT NULL;

wps3D71.tmp 

 

 

1.3.3  to_multi_byte 函数--全是全角字符

---全是汉字

SELECT l.name,

       to_multi_byte(l.name)

FROM   xb_link l

WHERE  l.name = to_multi_byte(l.name);

 

wps3D82.tmp 

 

SELECT l.name,

       to_multi_byte(l.name)

FROM   xb_link l;

wps3D83.tmp 

 

 

 

1.3.4  网友问题解答:某个字段数据是不是包含了全角字符?

drop table aa;

create table aa (col   varchar2(255));

SELECT * FROM aa for update;

wps3D84.tmp 

 

SELECT a.col,

       to_single_byte(a.col),

       length(a.col),

       lengthb(a.col),

       length(to_single_byte(a.col)),

       lengthb(to_single_byte(a.col))

FROM   aa a

WHERE  (lengthb(a.col) - length(a.col)) <>   (lengthb(to_single_byte(a.col)) - length(to_single_byte(a.col)));

wps3D85.tmp 

1.4  总结

 

方法很简单,网友可能还有其他的办法,欢迎留言,对于不同的场景处理方式有很多种,我们应该学会灵活变通。

 






 

可以利用LENGTHLENGTHBTO_SINGLE_BYTE函数来解决这个问题。其中,LENGTH返回以字符为单位的长度,LENGTHB返回以字节为单位的长度TO_SINGLE_BYTE将字符串中的多字节字符转化为单字节字符。此外,还可以使用ASCIISTRCONVERT函数找出包含汉字的字符串。利用LENGTHLENGTHBTO_SINGLE_BYTE函数来实现该需求,则类似的WHERE条件为:“LENGTHB(COL) <> LENGTH(COL) AND LENGTHB(TO_SINGLE_BYTE(COL)) <> LENGTH(TO_SINGLE_BYTE(COL))”。

下面给出一个示例,在AA表中插入的“2”是全角字符。

SYS@lhrdb> CREATE TABLE AA (COL   VARCHAR2(255));

Table created.

SYS@lhrdb> INSERT INTO AA (COL) VALUES ('1');

1 row created.

SYS@lhrdb> INSERT INTO AA (COL) VALUES (''); --全角字符

1 row created.

SYS@lhrdb> INSERT INTO AA (COL) VALUES ('小麦苗');

1 row created.

SYS@lhrdb> COMMIT;

Commit complete.

SYS@lhrdb> SELECT * FROM AA;   

COL

----------

1

小麦苗

SYS@lhrdb> COL COL FORMAT A10

SYS@lhrdb> COL SINGLE_COL  FORMAT A10

SYS@lhrdb> SELECT A.COL COL,

  2         TO_SINGLE_BYTE(A.COL) SINGLE_COL,

  3         LENGTH(A.COL) LENGTH_COL,

  4         LENGTHB(A.COL) LENGTHB_COL,

  5         LENGTH(TO_SINGLE_BYTE(A.COL)) SINGLE_LENGTH_COL,

  6         LENGTHB(TO_SINGLE_BYTE(A.COL))  SINGLE_LENGTHB_COL

  7    FROM AA A

  8   WHERE LENGTHB(A.COL) <> LENGTH(A.COL)

  9     AND LENGTHB(TO_SINGLE_BYTE(A.COL)) <> LENGTH(TO_SINGLE_BYTE(A.COL));

COL        SINGLE_COL LENGTH_COL LENGTHB_COL SINGLE_LENGTH_COL SINGLE_LENGTHB_COL

---------- ---------- ---------- ----------- ----------------- ------------------

小麦苗     小麦苗              3           6                 3                  6





ORACLE判别字段是否包含中文

2015-01-19 14:26 by 潇湘隐者, 8553 阅读, 0 评论, 收藏编辑

    在ORACLE数据库中如何查找那些字段里面包含中文的数据记录呢,有时候就是有这样的特殊需求,下面整理了一些判别字段中包含中文记录的几个方法

 

1:使用ASCIISTR函数判别

 

ASCIISTR函数说明:

ASCIISTR返回字符的ASCII形式的字符串。非ASCII的字符被转化为\xxxx的形式。

使用ASCIISTR函数也是根据非ASCII字符会被转化这个特性来判别中文字符,只要里面包含中文字符,则必定会有\xxx这样的字符。且简体汉字的编码范围是B0A1 - F7FE.如下例子所示

CREATE TABLE TEST
(
    NAME_ONE   CHAR(24)
   ,NAME_TWO   VARCHAR2(24)
   ,NAME_THR   NCHAR(24)
   ,NAME_FOR   NVARCHAR2(24)
)
 
INSERT INTO TEST
SELECT 'abc10', 'abc20', 'abc30', 'abc40'         FROM DUAL UNION ALL
SELECT 'abc11', 'abc21', 'abc31', 'abc41'         FROM DUAL UNION ALL
SELECT 'abc12', 'abc22', 'abc32', 'abc42'         FROM DUAL UNION ALL
SELECT 'abc1!', 'abc2!', 'abc3!', 'abc4!'         FROM DUAL UNION ALL
SELECT 'abc1#', 'abc2#', 'abc3#', 'abc4#'         FROM DUAL UNION ALL
SELECT 'abc1$', 'abc2$', 'abc3$', 'abc4$'         FROM DUAL UNION ALL
SELECT 'ab测试1', 'ab测试2', 'ab测试3', 'ab测试4' FROM DUAL;

clip_image001

使用 ASCIISTR(NAME_ONE) LIKE '%\%' 就能判别那些有中文的记录。如下所示:

SELECT NAME_ONE FROM TEST WHERE ASCIISTR(NAME_ONE) LIKE '%\%' 

但是如果字段里面的非ASCII字符不仅仅有中文,例如还有日文之类,那么这个方法就不能准确判别了,如下所示,我插入一条包含日文的记录.

INSERT INTO TEST
 
SELECT 'abこんにちは1', 'abこんにちは2', 'abこんにちは3', 'abこんにちは4' FROM DUAL;
 
COMMIT;
 
 
SQL> SELECT NAME_ONE FROM TEST WHERE ASCIISTR(NAME_ONE) LIKE '%\%';
 
NAME_ONE
------------------------
ab测试1
abこんにちは1

 

2:使用CONVERT函数判别

CONVERT函数说明:

CONVERT(inputstring,dest_charset,source_charset)

   inputstring:要转换的字符串

     dest_charset:目标字符集

     source_charset:原字符集

SQL> SELECT * FROM NLS_DATABASE_PARAMETERS WHERE PARAMETER='NLS_CHARACTERSET';
 
PARAMETER                      VALUE
------------------------------ ----------------------------------------
NLS_CHARACTERSET               UTF8
 
SQL> SELECT NAME_ONE, NAME_TWO FROM TEST WHERE  NAME_ONE <> CONVERT(NAME_ONE, 'ZHS16GBK', 'UTF8');
 
NAME_ONE                 NAME_TWO                
------------------------ ------------------------ 
ab测试1                  ab测试2                
abこんにちは1            abこんにちは2     

clip_image002

 

3:使用函数length和lengthb来判别

  

    使用函数length与lengthb来判别,是基于中文字符占用2~4个字节,而ASCII字符占用一个字节,那么对比LENGTH与LENGTHB就会不一样。这样就能判别字段中是否包含中文字符,但是跟ASCIISTR一样,如果里面的非ASCI字符包含非中文,它一样不能判别。依然有取巧嫌疑。

SELECT NAME_ONE FROM TEST WHERE LENGTH(NAME_ONE) != LENGTHB(NAME_ONE);

clip_image003

 

关于三者的性能,基本上都差不多,并没有那个性能要快一点。当然我没有详细、大量测试过,只是就某个案例的执行计划分析而已。

 

参考资料:

http://www.bitscn.com/pdb/oracle/201407/240540.html

http://blog.csdn.net/yzsind/article/details/6106050

http://blog.itpub.net/9399028/viewspace-687789











About Me

...............................................................................................................................

● 本文作者:小麦苗,只专注于数据库的技术,更注重技术的运用

● 本文在itpub(http://blog.itpub.net/26736162)、博客园(http://www.cnblogs.com/lhrbest)和个人微信公众号(xiaomaimiaolhr)上有同步更新

● 本文itpub地址:http://blog.itpub.net/26736162/viewspace-1688209/

● 本文博客园地址:http://www.cnblogs.com/lhrbest

● 本文pdf版及小麦苗云盘地址:http://blog.itpub.net/26736162/viewspace-1624453/

● 数据库笔试面试题库及解答:http://blog.itpub.net/26736162/viewspace-2134706/

● QQ群:230161599     微信群:私聊

● 联系我请加QQ好友(646634621),注明添加缘由

● 于 2015-06-05 10:00~ 2015-06-05 13:00 在魔都完成

● 文章内容来源于小麦苗的学习笔记,部分整理自网络,若有侵权或不当之处还请谅解

● 版权所有,欢迎分享本文,转载请保留出处

...............................................................................................................................

拿起手机使用微信客户端扫描下边的左边图片来关注小麦苗的微信公众号:xiaomaimiaolhr,扫描右边的二维码加入小麦苗的QQ群,学习最实用的数据库技术。


DBA笔试面试讲解
欢迎与我联系

来自 “ ITPUB博客 ” ,链接:http://blog.itpub.net/26736162/viewspace-1688209/,如需转载,请注明出处,否则将追究法律责任。

请登录后发表评论 登录
全部评论
QQ:646634621| 网名:小麦苗| 微信公众号:xiaomaimiaolhr| 11g OCM| QQ群:618766405 微信群:私聊| 《数据库笔试面试宝典》作者| OCP、OCM、高可用(RAC+DG+OGG)网络班开讲啦,有需要的小伙伴可以私聊我。

注册时间:2012-09-23

  • 博文量
    1367
  • 访问量
    8351740