SearchEngine
南开大学 2024 秋信息检索系统原理课程设计。
项目结构如下:
SearchEngine
|__app--项目运行主文件
| |__static
| | |__snapshots--存储网页快照
| |__templates--前端
| | |__search.html--搜索页面
| | |__results.html--搜索结果页面
| |__app.py--入口文件(执行即可启动搜索引擎)
| |__search.py--搜索等功能主函数
| |__Suggest.py--根据搜索历史进行推荐
| |__search_history.csv--保存搜索历史
|__main--构建倒排索引、计算PageRank和TF-IDF等
| |__buildIndex.py--构建倒排索引
| |__inverted_index.csv--倒排索引列表
| |__PageRank.py--计算PageRank
| |__pagerank_results.csv--URL-PageRank
| |__id-pagerank.csv--ID-PageRank
| |__TF-IDF.py--计算TF-IDF
| |__tfidf_results.csv--TF-IDF计算结果
|__PreWork
|__deleteStopwords.py--去除停用词
|__final.csv--分词后进行格式对齐后的最终csv文件
|__GetDescription.py--获取每个网页的description
|__Original.csv--包含标题和链接的原始csv文件
|__output.csv--包含文档id、标题、链接和description的csv文件
|__scu_stopwords.txt--停用词库
|__worm.py--爬取标题和链接
|__segment.py--进行分词
运行方法:
python app.py
SearchEngine
南开大学 2024 秋信息检索系统原理课程设计。 项目结构如下:
运行方法: