基于R语言爬取电商数据的价格销售分析

第1页 / 共23页

第2页 / 共23页

第3页 / 共23页

第4页 / 共23页

第5页 / 共23页

第6页 / 共23页

第7页 / 共23页

第8页 / 共23页
试读已结束,还剩15页,您可下载完整版后进行离线阅读
基于R语言爬取电商数据的价格销售分析-知知文库网
基于R语言爬取电商数据的价格销售分析
此内容为付费资源,请付费后查看
10
限时特惠
20
立即购买
您当前未登录!建议登陆后购买,可保存购买订单
付费资源
© 版权声明
THE END
1绪论1.1研究背景及意义随着网络的发展,越来越多的资源出现在人们面前,这时候人们就需要一种查询这些资源的方法,一种可以方便快捷获取自己想要的东西的方法。这时候搜索引擎这种搜索工具就出现了。网站拥有了较多内容后,首先考虑基于目录的内容分类,以解决信息快速定位的问题,随着内容量的进一步增加,很多内容在发表之后就很快被湮没,成为“信息孤岛”,而不断加深的目录结构也会让用户逐渐失去耐心。这时,搜索引擎的优势就体现出来了:可以让处于“信息孤岛状态的内容以一种更直接的方法提供给用户:和基于目录/分类的树形结构不同,基于关键词检索还可以让内容之间实现网状的关联结构,已经出现了许多类似的搜索引擎。针对搜索引擎广阔的应用前景以及分析国内外搜索引擎的发展现状,根据全文检索系统的工作原理设计一种基于Internet的全文搜索引擎模型,它可以从互联网上获取网页,建立索引数据库,并采用数据库管理作业和多线程技术以提高全文搜索的性能和效率,从技术上可以适用于任何有搜索需求的应用。1.2国内外研究现状网络爬虫,又称为Robots或Spiders,几乎与网络同时出现。第一个网络爬虫是Matthew Gray的Wanderer,在头两届国际万维网会议上出现过数篇关于网络爬虫的论文。但是那时候互联网上的信息规模比现在要小得多,那些文章中并没有阐述如何处理现在所面临的海量网络信息的技术。每个搜索引擎的后台,都有相应的网络爬虫在工作着。但是出于互相竞争的原因,这些网络爬虫的设计并没有公开,除了以下3个:Google Crawler,Internet Archive Crawler以及Mercator。1990年,万维网还没有诞生,但是人们已经开始频繁的使用网络来传输文件了,由于大量的文件分布在不同的终端上,如果对每个终端逐一的进行访问既费时又费力,于是蒙特利尔大学的学生Alan Emtage、Bill Wheelan和PeterDeutsch开发了一个可以用文件名查找文件的系统,也就是Archie.。它存储了一个FTP文件名列表,当用户输入文件名进行搜索时,它会告诉用户该文件是放在哪个FTP主机中,用户就可以直接访问这个主机获取文件。深受Archie系统的启发,1993年美国内华达System Computing Services大学开发出了一个已经可以检索网页的搜索工具。同年,麻省理工学院(MIT)的学生马休.格雷(Matthew Gray)开发出了第一个web robot网络机器人程序,这个程序被命名为World Wide Web Wanderer。虽然当时这个程序并不是以做搜索引擎为目的而编写的,但是它却促进了后来搜索引擎的发展。网络机器人程序(Robot)也叫网页蜘蛛(Spider)或网络爬虫
喜欢就支持一下吧
点赞15 分享
评论 抢沙发
头像
欢迎您留下宝贵的见解!
提交
头像

昵称

取消
昵称表情代码图片

    暂无评论内容