使用开源引擎Lucene搭建小型搜索引擎
信息的搜集- 信息的搜集-质量保证 减少重复页面的采集– URL重复的检测和排除 URL重复的检测和排除 – 内容重复的检测和排除
保证重要页面的高优先级– 入度高的网页相对重要 – URL浅的网页相对重要 URL浅的网页相对重要 – 含有被别人广泛链接的内容的网页重要
11
2011-6-3
百度搜索“77cn”或“免费范文网”即可找到本站免费阅读全部范文。收藏本站方便下次阅读,免费范文网,提供经典小说教育文库如何使用开源工具构造小型搜索引擎(11)在线全文阅读。
相关推荐: