爬虫 – 小文's blog

吃灰Kindle复活计——用Kindle看网络小说

曾经连续几个月关注它就为了等它降价几十块，还没买回来就已经幻想好日日夜夜与它形影不离，当它真的闯入你的生活，你不禁感叹：真香！（用Kindle盖出来的泡面真香）甚至官方都开始自嘲用kindle盖过的泡面会更香，你的Kindle还好吗？还是说你已经一边用电脑看书一边用Kindle盖泡面了？思路梳理本文不会通过介绍热门书籍的方式让你重新拿起Kindle，而是教你如何将自己喜欢的网络小说放进你的Kindle。 PS：本文涉及专业性知识较多，如过你并没有接触过Python和爬虫，请直接在评论区留言小说名，我有时间会帮你制书。在小说网站找到你喜欢的网络小说，使用Python爬虫爬取每一章小说的内容将爬取到的内容按章节区分，使用csv格式保存并排序 python读取csv文件并按照制书软件要求的格式将其装化成txt文件使用制书软件将txt文件制成mobi格式的电子书将书籍导入Kindle（邮箱推送或者连电脑通过usb传输）书籍抓取本节涉及到技术：Python, Scrapy 现在网上各类小说网站层出不穷，我们要做的就是在这些小说网站中找到想看的书籍并保存到本地。确定网站 1、网站路由：每一章页面url最好是https://[域名]/[小说标识]/[章节标识].html，便于抓取；章节标识最好是有序数字（可以不连续），便于章节排序。 2、防爬虫机制：最好找那些没有防爬虫机制的网站，会大大加快我们爬取速度。本站使用的示例网站是：m.biqudao.com 工具安装 python环境下，使用安装scrapy库，然后使用scrapy命令创建和编写爬虫。 [crayon-680becf1acbe0926712073/] 如果遇到安装错误，可能是要手动下载安装Twisted依赖。开始爬取我写的爬虫文件如下，可供参考。爬取速度大概1秒10章 https://github.com/qcgzxw/scrapy [crayon-680becf1acbe7062668542/] 输出为csv文件，便于章节排序。爬出来的文件时乱序章节排序将输出的csv文件用Excel打开，按网址排序即可。（如果内容过多，打开和排序可能会卡顿） Excel打开乱码解决方式：使用Notpad++软件打开csv文件，点击，，保存后再次用Excel打开即可。转txt文件我使用的制书软件是calibre - E-book management，他要求的格式是用##来表示章名，所以我们从csv文件中读取并转化成对应格式的txt文件。 https://github.com/qcgzxw/scrapy/blob/master/csv2txt.py 运行该脚本即可转化成txt文本。书籍制作下载安装配置calibre - E-book management软件，将转换好的txt文件拉进去，然后选中，点击转换书籍。不需要过多操作，点击确定即可开始任务等半小时就好了，直接右键点击转换好的mobi格式的书籍，点击共享，发送邮件至***，kindle联网即可自动获取到通过邮件发送的文件了。 PS：转换过程很慢，我一本20M的书花了2小时。效果展示

2019年5月19日 0条评论 7,458次阅读 22人点赞阅读全文

教程

抓取全站图片的几个思路

前言好久没更新文章，最近确实忙，今天抽点时间写写我最近忙着优化网站图片的事。由于本站使用的图床SM.MS，近期不少使用电信和联通运营商的朋友说图片加载慢，网站加载完要几十秒。因为我是移动，也有可能是我本地有缓存的原因，一直没觉得网站图片有问题。不过在最初开始使用SM图床的时候就已经知道不是长久之计，博主就花了2天时间来完成全站图片的转移。图片抓取这是今天的重点，我也前前后后考虑了多种方案。例如：利用插件自动保存至本地服务器等等···。以下的方案只是我个人在思考这个解决问题时想到的方法，并不是最佳方案。方案1：python爬虫获取全站文章链接（这个以前写过相关文章WordPress获取所有文章链接） python写爬虫一篇篇爬数据后，用re模块正则表达式findall()方法筛选出所有图片链接。 github地址： https://github.com/qcgzxw/pachong/blob/master/%E5%85%A8%E7%AB%99%E5%9B%BE%E7%89%87%E9%93%BE%E6%8E%A5%E6%8A%93%E5%8F%96.py 单线程在跑，网站都吃不消，花了2分钟，把全站数据跑完，基本上只要正则表达式没问题就能取得所有图片链接。方案2：数据库命令进入到数据库，将wp_posts表导出为SQL格式（最好不要用其他格式，编码问题）将下载的SQL文件用NotePad++等文本编辑器工具打开，复制其中所有内容。打开任一在线正则表达式测试工具，将复制的内容和对应的正则表达式填入网页，即可提取所有图片链接。用文本去重工具，去除一下重复行。复制结果后，用notepad++稍做处理即可达到所有链接。博主的话以上是博主在思考“抓取全站图片”时的几个思路，个人觉得第二种方式最优。若有更好方案，还请留言评论，大家一起交流。个人觉得在遇到问题时，自己多思考，想到办法后再想想自己的解决方案是不是最优方案，不要怕耽误工夫，因为你想出了一个最有解决方案后，以后碰到同样的问题，你可能只需要几分钟就能解决。博客本就是分享和讨论个人经验的地方，如果大家有更好的办法，还请不吝赐教！

2018年9月21日 3条评论 32,552次阅读 1人点赞阅读全文