ITPub博客

首页 > 大数据 > 数据挖掘 > 2013年广外数据挖掘兴趣小组招新信息

2013年广外数据挖掘兴趣小组招新信息

数据挖掘 作者:zljude701825 时间:2013-05-28 17:46:14 0 删除 编辑
数据挖掘兴趣小组招新

指导老师:蒋盛益,丘心颖,李霞,张新猛,谢柏林

1.数据挖掘及其前景

数据挖掘(Data MiningDM)是从大量的、不完全的、有噪声的、模糊的实际应用数据中,提取隐含其中未知的但又有潜在价值的信息和知识的过程。其应用主要集中在电信、零售、银行、网络日志、农业、电力、生物、天体、化工、医药等方面。目前,它已成为近年对人类生活影响最大的几项IT技术之一,很多大公司和著名大学都开始重视数据挖掘领域的研究,如微软将互联网搜索、数据挖掘与语音技术确定为亚洲研究院的3大研发领域之一;IBM等大公司纷纷在数据挖掘领域加大投入等。此外,美国08年评选的12个最有前途的职业中数据挖掘师排名第四。

 

2.兴趣小组的构成

2006年底开始,在本科生中组织了数据挖掘学习兴趣小组,每届学生一年两期吸引部分优秀学生参与到兴趣小组中来,数据挖掘兴趣小组现有成员50余人。

由蒋盛益教授领导的数据挖掘兴趣小组是以学术科研为主导,充分利用学校、学院和智能信息处理研究所各方面资源,鼓励学生创新自主学习,培养学生独立思考、独立解决问题的能力,为学生研究计算机领域前沿技术提供机会,为广大信息学院学子提供学术交流、自由发挥自身优势的学术平台。

经过几年的努力,数据挖掘兴趣小组已逐步形成梯级学术创新团队,由蒋盛益教授指导部分学院老师以及小组核心成员,再由老师与小组核心成员领导组织全部成员进行学术项目开发,梯级团队的形成为学生进行学术研究提供了很大的便利,为小组将来的发展壮大奠定了基础。同时,部分小组成员参与到教师主持的项目去,有效地提高了学生的独立思考能力、自主创新能力和学术科研能力,为学生以后进一步深造打下坚实的基础。

 

3.主要研究内容及近期研究方向

数据挖掘兴趣小组拟在以下四个方向招新:WEB数据挖掘、社会网络分析、竞争情报分析、自然语言处理。

WEB数据挖掘(陈东沂 EMAILdongyi_chen@163.com

研究方向:Web数据挖掘,自然语言处理,文本挖掘,信息检索

编程语言:C/C++/Python/Perl/Java

现有成员:17

本项目组拟从以下2个项目中招募8-11名成员,具体信息如下:

(1) 微博文本信息挖掘(6-8人)

项目摘要:微博(Microblog)是近年兴起的网络媒体,主要提供信息共享、信息传播和交友等功能,具有信息实时性、内容简洁性、用户交互性等特点。微博的兴起赋予了社会经济活动前所未有的社会化、网络化内涵,极大地提升了网络媒体的社会服务效能。研究微博文本信息挖掘技术对认识微博信息的可信度、社区形成机理以及信息传播机制的成因等有着重要的现实意义。本项目研究面向微博的文本挖掘技术、微博热点主题检测、微博个性化推荐等技术及其在微博营销、微博舆情监控等方面的应用。

(2) 社交媒体地理位置应用研究(2-3人)

项目摘要:随着新兴社交媒体的出现和流行,移动智能手机等多样化的移动设备的普及,移动互联网累积了大量的地理位置数据,如何从社交媒体地理位置信息挖掘潜在的知识或模式,以结合实际领域的应用(比如基于地理位置的个性化推荐等),成为新近的研究热点。本项目从移动地理位置信息出发,立足于web文本挖掘技术,并结合相关社交网络信息,以文本分类聚类、话题检测等技术为基础,开展基于地理位置等相关应用研究。

 

社会网络分析(吴美玲 EMAIL402745606@163.com

研究方向:微博用户关系挖掘,数据挖掘在行业的应用研究

编程语言:C/C++/JavaJavaScript/HTML/CSS

数据分析工具:SAS/Clementine/SPSS

现有成员:8

本项目组拟从以下2个项目中招募后端和前端开发共8名成员,具体信息如下:

(1) 微博用户关系挖掘及推荐系统(4人)

项目摘要:微博平台上用户的实时交互数据是现实社交关系的缩影,对微博用户关系数据的挖掘分析是研究用户群体和兴趣模型的基础。本项目结合微博用户关系及其文本数据,采用社会网络分析及数据挖掘技术,发现用户关系圈及其话题检测,实现个性化信息推荐。

(2) 通信业数据挖掘分析系统(4人)

项目摘要:通信业是典型的数据密集型行业,海量的客户行为数据挖掘分析是通信业客户关系管理的利器。本项目基于通信业客户行为数据,在数据预处理的基础上,采用数据挖掘算法实现客户细分、客户价值评估、业务关联分析等,将挖掘结果采用图形可视化。

 

竞争情报分析(莫伟健 EMAIL1440485549@qq.com

研究方向:垂直搜索,信息提取,信息检索,自然语言处理,知识本体

编程语言:Java/Perl/PHP/C/C++

现有成员:6

其他要求:除主要招募有较强编程能力和兴趣的同学外,另需要1-2位有较强的英语理解和中文写作能力的同学。

本项目组拟从以下3个项目中招募5-8名成员,具体信息如下:

(1) 面向信息安全行业的情报摘要自动生成技术研究 1-2人)

项目摘要:以著名的新闻网站(如新浪新闻网,搜狐新闻网,中国新闻网等)为主要研究对象,以增量自主学习的主题爬虫从新闻网页中爬取新闻的内容,用文本分类器对新闻文本进行分类,将与信息安全相关的新闻分离出来。其中,提高爬虫效率与改善文本分类器的去噪性能是本项目关键的地方。该项目已通过中期考核。

(2) 受限领域的自动问答系统 1-2人)

项目摘要:系统从本地知识库搜索特定实体相关的属性值,利用网络资源构建大规模的本地知识库。属性值的抽取模块对搜索引擎检索获取的网页文档进行处理,通过句子过滤,实体识别,句法分析等处理方法从文档中抽取出相关的句子或短语作为特定实体的属性值返回。该项目已通过中期考核。

(3) 面向网络安全领域的资讯提取与管理机制研究 (3-4)

项目摘要:面向网络空间安全资讯领域,以增量自主学习的主题爬虫同时从多个新闻网站中获取网页,用信息提取的技术对搜集到的网页进行分析、整理,提取相关信息处理,对信息和链接进行判断,并将与重要事件相关的内容存入基于本体论的知识库。该项目为新立项项目。

 

自然语言处理(郑景耀 EMAIL461602442@163.com

研究方向:舆情监控,作文自动评分

编程语言:C/C++/Java/Python

其他要求:有一定的英语基础

本项目组拟招募3-6名成员,具体信息如下:

项目摘要:随着网络和通讯技术的快速发展和普及,面向文本尤其是网络文本的理解和挖掘的自然语言处理技术正成为学术界和产业界关注的热点。互联网中每天需要记录或传送数以十亿计用户的数据,并且这些数据80%以上为自然语言文本,如何有效处理这类自然语言文本自然语言处理的应用包括:搜索引擎、问答系统、机器翻译、社会计算、生物计算、中英文作文自动评分、语音识别等。

 

4.招新对象及基本要求

招新对象:面向2012级和2011级学生(主要面向2012级,不少于60%

招新职位:技术类与非技术类,技术类的分为前端开发人员与后端开发人员

基本要求:

(1)对数据挖掘及其应用有兴趣并有足够的课余时间用于相关学习;

(2)做事有热情、恒心和毅力,较好的协作精神;

(3)有较强的编程能力和较好的数学基础。

 

5.报名及宣讲会说明

请感兴趣的同学从小组目前的研究项目组选中择1~2个意向的项目,填写《2013年数据挖掘小组招新报名表》以及2013年数据挖掘小组招新登记表》,命名格式分别为:张三_12电气6_报名表张三_12电气6_登记表,将两份材料同时发送以下邮箱

1. 相关项目负责人邮箱(若有多个意向,请提交到意向项目对应的负责人)。

2. 261869899@qq.com

 

招新流程:报名-宣讲-笔试-面试

报名日期:2013.5.27-2013.5.31

宣讲日期:2013.5.30 下午2:30-4:00 (现场接收报名表)

宣讲地点敬请留意新浪微博 @广外数据挖掘兴趣小组

 

招新最新信息以及结果将以多种渠道进行公布,敬请关注!

网站地址:http://iiip.gdufs.edu.cn/(智能信息处理研究所)

新浪微博:http://weibo.com/2614841211@广外数据挖掘兴趣小组)

新浪博客:http://blog.sina.com.cn/u/2614841211(广外数据挖掘兴趣小组)

<!-- 正文结束 -->

来自 “ ITPUB博客 ” ,链接:http://blog.itpub.net/10461707/viewspace-1121791/,如需转载,请注明出处,否则将追究法律责任。

上一篇: 没有了~
下一篇: 没有了~
请登录后发表评论 登录
全部评论