2006-4-6 19:35
祥子
论坛数据采集程序--初级准备工作
采集论坛的数据,无非就是取得贴子的内容,作者,回复人,时间,点击次数,贴子ID,版块ID等等一系列感兴趣的东西。而这些东西都可以在HTML中取得。而这些信息都有起始符和结束符。如何找到关键字是解决问题的关键。
那么首先就是要在程序中进入论坛。有两种办法。
第一种:就是使用INDY控件IDHTTP,使用他的GET方法取得指定URL的HTML。当然,有的论坛需要登陆才可以访问贴子。那么就要提交必要的登陆信息,使用IDHTTP的POST方法,提交信息。但是某些论坛在登陆的时候须要输入验证码,而验证码不会在HTML中体现出来,那么就只能返回他的IMG。然后断开IDHTTP,转向登陆后的跳转页面,由返回的HTML判断是否登陆成功。
第二种,使用WEBBROWSER控件,得到给定URL的页面,然后在网页中登陆。在控件的DocumentComplete事件下得到HMTL,判断是否登陆成功。至于要得到指定URL的HTML,而又不想在WEBBROWSER中显示出页面,那么就得调用UrlDownloadToFile这个API将页面下载到本地,再取得其HTML。
有了这些就可以开始了,打开了一个网页,看看他的HMTL,找到他的关键字,就可以开始了。