文件名称:
MATLABMYSQL爬虫-zhgd.m
开发工具:
文件大小: 3kb
下载次数: 0
上传时间: 2019-08-12
详细说明: MATLABMYSQL爬虫-zhgd.m 本帖最后由 caicaibi 于 2018-7-20 11:48 编辑 一、引言 最近有朋友问我MATLAB怎么弄爬虫,下载的大量数据怎么实现归类,借此,我弄了一个MATLAB爬虫,然后将下载的数据存储到MYSQL数据库的例子,在这里分享给大家。希望想做这方面的朋友,能对基本内容有所了解。 二、环境配置 1.MATLAB R2012a 2.安装JDBC驱动 链接:https://pan.baidu.com/s/18GarT6io5LgQy1nfoRL-5g 密码:alpp 3.MYSQL(很多新手看到MYSQL的cmd框,头都要大了,不知道怎么开启,关闭 等操作,建议新人不要直接安装MYSQL,去下载wampserver2.5,它里面包含了MYSQL,是一个集成化的包,安装非常方便,在运行时,只要看到它的标志变绿,就可以了。) 软件图标: 正常运行状况: 4.Navicat for mysql 链接:https://pan.baidu.com/s/1904BVG-OOXlnn2W5DdlIkA 密码:3xr0 软件图标: 软件界面: 见后面图片 三、爬虫抓取界面解析 1.抓取对象: 中航光电 -> 产品中心 2.抓取网址: http://www.jonhon.cn/procuct/show-388.aspx 3.抓取内容: 见后面图片 4.对象特征: i.类别: 见后面图片 分析:每个对象都是一个 href标签,里面有 /cplist1.aspx?category_id=2 类似的标志,作为正则表达式的筛选对象 ii.图片:见后面图片 分析:每张图片都为 bimg 图片,作为正则表达式的筛选对象。注意:每种产品不一定是一张图片,需要对多张图片进行考虑 iii.简介:见后面图片 分析: 简介末尾都有 ,作为正则表达式的筛选对象 四、MYSQL操作 1.开启mysql 运行wampserver.exe,绿色图标表示成功运行。 2.创建数据库,数据表 具体见教程: http://www.formysql.com/jiqiao/mysql-xinjianbiao.html 3.MATLAB连接MYSQL conn = database;%连接数据库 cursorA = exec;%执行增删改查操作 cur = fetch;%返回结果,最后得到的数据以cell格式,存在cur.Data中复制代码 参数解析: database; 第一个参数:数据库的名称,就是要操作的数据库的名称 第二个参数:用户名 第三个参数:密码 第四个参数:连接的驱动,这里就写这个,不用改 第五个参数:数据库的连接路径吧,jdbc:mysql://,前面这个是jdbc,用mysql数据库,后边是具体的路径,数据库的IP,端口,和数据库的名称,跟第一个参数一样 五、程序流程 1.开启数据库 -> 使用循环,凑齐网址 -> 采用urlread抓取页面 2.根据抓取的对象html特征,制定不同的正则表达式筛选出需要的内容 2.1类别:提前的关键字,用\连接,组成创建目录的格式,mkdir函数创建目录 2.2图片:提取图片地址,判断图片数量,去前缀,补充链接,使用urlwrite 将图片下载到目录中,保存。 2.3简介:提取标签,新建readme.txt,将简介写入文本中 3.文本写入数据库 将[编号,目录,图片数量,网址,摘要]写入数据库。 具体命令,学习sql语句 sql学习网址:http://www.w3school.com.cn/sql/index.asp 六、程序代码 见附件 七、结果 见后面图片 见后面图片
(系统自动生成,下载前可以参看下载内容)
下载文件列表
相关说明
- 本站资源为会员上传分享交流与学习,如有侵犯您的权益,请联系我们删除.
- 本站是交换下载平台,提供交流渠道,下载内容来自于网络,除下载问题外,其它问题请自行百度。
- 本站已设置防盗链,请勿用迅雷、QQ旋风等多线程下载软件下载资源,下载后用WinRAR最新版进行解压.
- 如果您发现内容无法下载,请稍后再次尝试;或者到消费记录里找到下载记录反馈给我们.
- 下载后发现下载的内容跟说明不相乎,请到消费记录里找到下载记录反馈给我们,经确认后退回积分.
- 如下载前有疑问,可以通过点击"提供者"的名字,查看对方的联系方式,联系对方咨询.
相关搜索: