基于R语言爬取电商数据的价格销售分析

文章大全

2024年05月11日发布

0.65MB23页07215

第1页 / 共23页

第2页 / 共23页

第3页 / 共23页

第4页 / 共23页

第5页 / 共23页

第6页 / 共23页

第7页 / 共23页

第8页 / 共23页

试读已结束，还剩15页，您可下载完整版后进行离线阅读

文章版权归作者所有，未经允许请勿转载。

THE END

计算机与科学

文本预览

1绪论1.1研究背景及意义随着网络的发展，越来越多的资源出现在人们面前，这时候人们就需要一种查询这些资源的方法，一种可以方便快捷获取自己想要的东西的方法。这时候搜索引擎这种搜索工具就出现了。网站拥有了较多内容后，首先考虑基于目录的内容分类，以解决信息快速定位的问题，随着内容量的进一步增加，很多内容在发表之后就很快被湮没，成为“信息孤岛”，而不断加深的目录结构也会让用户逐渐失去耐心。这时，搜索引擎的优势就体现出来了：可以让处于“信息孤岛状态的内容以一种更直接的方法提供给用户：和基于目录/分类的树形结构不同，基于关键词检索还可以让内容之间实现网状的关联结构，已经出现了许多类似的搜索引擎。针对搜索引擎广阔的应用前景以及分析国内外搜索引擎的发展现状，根据全文检索系统的工作原理设计一种基于Internet的全文搜索引擎模型，它可以从互联网上获取网页，建立索引数据库，并采用数据库管理作业和多线程技术以提高全文搜索的性能和效率，从技术上可以适用于任何有搜索需求的应用。1.2国内外研究现状网络爬虫，又称为Robots或Spiders,几乎与网络同时出现。第一个网络爬虫是Matthew Gray的Wanderer,在头两届国际万维网会议上出现过数篇关于网络爬虫的论文。但是那时候互联网上的信息规模比现在要小得多，那些文章中并没有阐述如何处理现在所面临的海量网络信息的技术。每个搜索引擎的后台，都有相应的网络爬虫在工作着。但是出于互相竞争的原因，这些网络爬虫的设计并没有公开，除了以下3个：Google Crawler,Internet Archive Crawler以及Mercator。1990年，万维网还没有诞生，但是人们已经开始频繁的使用网络来传输文件了，由于大量的文件分布在不同的终端上，如果对每个终端逐一的进行访问既费时又费力，于是蒙特利尔大学的学生Alan Emtage、Bill Wheelan和PeterDeutsch开发了一个可以用文件名查找文件的系统，也就是Archie.。它存储了一个FTP文件名列表，当用户输入文件名进行搜索时，它会告诉用户该文件是放在哪个FTP主机中，用户就可以直接访问这个主机获取文件。深受Archie系统的启发，1993年美国内华达System Computing Services大学开发出了一个已经可以检索网页的搜索工具。同年，麻省理工学院(MIT)的学生马休.格雷(Matthew Gray)开发出了第一个web robot网络机器人程序，这个程序被命名为World Wide Web Wanderer。虽然当时这个程序并不是以做搜索引擎为目的而编写的，但是它却促进了后来搜索引擎的发展。网络机器人程序(Robot)也叫网页蜘蛛(Spider)或网络爬虫

喜欢就支持一下吧