|
贸小七教你如何抓取alibaba.com的企业信息,效果好吗?价格是多少如何抓取alibaba.com的企业信息 第一步。分析关键词页面 首先我们打开 alibaba ,在上面搜索一下。搜索时注意选择 SUPPLIERS,用您需要的关键词搜索一下。 然后alibaba就会列出跟关键词相关的 公司页面。我们拉到最下面,发现它这里最多只显示90页。 我们翻几页看看,翻页是留意网址的变化。 翻到第二页时我们发现网址变化了。
连续发几页,观察网址,我们很明显就可以看出它的变化。 http://www.alibaba.com/corporations/led/2.html http://www.alibaba.com/corporations/led/3.html http://www.alibaba.com/corporations/led/4.html http://www.alibaba.com/corporations/led/5.html . . . . http://www.alibaba.com/corporations/led/90.html 知道它的规律 就可以用软件 快速地列出来。 新建引擎,点生产连续网址。相应地填上数值。按开始生成,再按确定。
这样我们就得到了刚才跟LED相关的90个页面了。 第二步,分析公司页面,写正则表达式。 软件是通过链接来打开这些页面,再搜索他们有用的信息的。那么那些链接才是我们需要的呢,这时候就需要通过一个“正则表达式”来告诉软件了
打开上面90个页面中的随便一页。
我点开上面这两家公司的“ 多打开几个公司页面,同样观察网址的规律。
http://xuhuilighting.en.alibaba.com/contactinfo.html http://loyallighting.en.alibaba.com/contactinfo.html http://loyallight.en.alibaba.com/contactinfo.html http://en-light.en.alibaba.com/contactinfo.html 很明显不变的部分是http:// .en.alibaba.com/contactinfo.html 中间是每家公司都不同的。变化的部分就用变量 [\?&;=\#._a-zA-Z\d-]* 代替。所以正则表达式就是(表达式用小括号括着) 这个意思就是 从http://www.alibaba.com/corporations/led/1.html 到http://www.alibaba.com/corporations/led/90.html 这90个页面中,符合前面是http:// 后面是.en.alibaba.com/contactinfo.html ,中间变化的链接 都抓取下来。 因为这些从上面的分析可以判断,这些链接里面有我们需要的信息。
点击测试。软件会测试第一个页面http://www.alibaba.com/corporations/led/1.html 成功搜索到38个公司的联系页面。
第三步、采集信息。 接下来就是从这些公司页面上或者我们需要的邮箱、网站。
点击要采集的项目,因为上面只有公司网站,所以就勾选网址。
按确定保存。 |