当今互联网已经成为转播信息最快最方便的途径,每天在互联网上都有无数的网站和网页正在产生。用户可以通过搜索引擎查找信息,但是由于搜索引擎是为所有互联网用户服务的,所以用户无法通过搜索引擎方便的查找到自己指定的一组网站的内容,搜索引擎也不会主动推送这些网站的内容给用户。
Future互联网内容采集系统很好的解决了这一问题。用户可以通过图形化界面输入自己需要采集的网站网址等信息,该系统会定时采集用户指定网站,保存在数据库中,同时用户可以通过该系统搜索网页。该系统也可以将互联网中热门信息或用户定制的关键字信息推送给用户,极大的方便了用户对特定网站内容的监控。
该系统最上层为需要采集的互联网数据,系统会对采集到的互联网数据进行HTML分析,元数据提取以及数据入库的操作。中间层是URL Table数据,系统将这些数据保存在设计好的MYSQL数据库中,同时采用集群的方式处理数据,保证整个数据处理的高效率。第三层是索引数据库,系统在进行全文索引,分类索引,NLP处理后,会将所有相关数据保留到这里。这里的设计也同样采用了集群的方式,保证整个数据处理和检索的高效性。
|