清华大学|信息学院|国家实验室|English Version

热点图片

美国麻省大学罗威尔分校王杰教授来我院作学术报告

520日,美国麻省大学罗威尔分校计算机科学系主任王杰教授应李军院长的邀请,来我院作了题为基于小型机器的大数据处理的学术报告。报告由李军院长主持,来自计算机、自动化等专业的40多名研究生及教师参加本次报告会并就感兴趣的问题和王教授交流、讨论。

在报告中,王教授介绍了他主导研发的基于在线社交网数据的自动话题挖掘平台“沃知”,并分享了该大数据平台搭建过程中解决大数据处理问题的成功经验。重点介绍了海量微博数据采集与存储技术、海量微博数据快速查询算法与自动话题挖掘算法。沃知平台通过采用NoSQLMongoDB,并结合数据库分区、分表方案解决了海量数据存储问题;通过综合采用正则表达式匹配、NextWord搜索算法与Apache Lucene,提供不同精确度与搜索速度的海量数据查询方案;同时自主研发了wantology自动话题挖掘算法,实现了精确、可读的微博话题的自动生成。

                 

【发布时间:2014-07-25】【浏览次数:2508】