ITPub博客

首页 > Linux操作系统 > Linux操作系统 > awk+uniq实现集合减法运算

awk+uniq实现集合减法运算

原创 Linux操作系统 作者:tengrid 时间:2009-05-18 19:37:44 0 删除 编辑

有两个文本A,B, 都为50w左右记录,A包含B, 求在A中存在,在B中不存在的记录(要求不能重复)
都有3列,格式如下,各列之间以空格分隔

uin   Ftotal   Fconsume
------------------------
11588   500     500
12398   2033    1900
13255   1000    1000
14360   1530    1210

对于DBAs 来说,最直接的方式是load to table,假设为tableA,tableB然后用下面sql求出结果集,才导出到文本中
select distinct t1.*
  from tableA t1,tableB t2
  where t1.uin not in (select t2.uin);

但请注意,上面两个文本都约有50w记录,上述sql会进行 50w*50w*将比较运算才能拿到结果,效率肯定不会好到哪里去,尤其是在轻量级的mysql等开源数据库的情况下.

那么是否有更加巧妙的方法实现呢?
以下是运用awk+uniq的实现

$awk '{print $2" "$3" "$1}' a.txt >a1.txt   #为了跳过前两列进行uniq,将uin移到第三列
$awk '{print $2" "$3" "$1}' b.txt >b1.txt   #同上
$cat a1.txt b1.txt |sort -k3n|uniq -f2 -u >result.txt

这里解释一下第三句
sort -k3是指从第3列开始排序,n是指以numeric方式排序,而非ascii;
uniq -f2是指跳过前面2列,-u是指取不重复的行

如果b.txt中的某行在a.txt中存在,则会因为 uniq -u排除掉

 


 

来自 “ ITPUB博客 ” ,链接:http://blog.itpub.net/94384/viewspace-600309/,如需转载,请注明出处,否则将追究法律责任。

请登录后发表评论 登录
全部评论

注册时间:2009-05-18

  • 博文量
    136
  • 访问量
    379904