#开源# 妹妹站,全站采集自动发布

作者: MJJ 分类: 开源项目 发布时间: 2019-01-17 19:39

采集说明:crawler下的每个文件都是一个独立爬虫,分别对应一个站。需要采集那个站就修改那个文件,默认采集首页,根据标题去重。爬虫里有备注

另外,建议第一次采集全站,然后修改配置,只采集第一页,写进linux定时任务里

本地图片发布说明:cd 到 crawler,执行python3 AutoPost.py,根据提示输入本地图片所在路径,输入自动发布时间

图片压缩使用说明:有些网站可能未对图片进行压缩,一张图1m甚至几m不但降低传输速度还占空间。cd 到 crawler,执行python3 Compress.py,

根据提示输入,默认10个线程压缩,如果服务器配置高可适当增加,只压缩图片质量,尺寸不变,实测1m图片压缩到100k后肉眼看不出区别

宝塔安装教程:最初因为这是Python程序只用安装mysql和nginx(可选),所以一直没写教程。群里一老哥写了一个教程,在此借用下

直接上老哥博客地址:

https://sunsea.im/131/bt-94imm-build-beautiful-girl-picture-station/

演示地址:模板1 https://www.94imm.com、 模板2 http://mm.94imm.com(联通有墙)

git地址:https://git.coding.net/zxy_coding/94imm.git

1.环境需求Python3.6.5、mysql5.7、nginx(可选)。系统版本推荐centos7 64位
2.环境搭建
  python3.6.5参考 http://blog.51cto.com/wenguonideshou/2083301,软链地址有问题,注意看回复
  mysql5.7安装,参考https://blog.csdn.net/qq_38663729/article/details/79327305
  python-dev安装,参考https://blog.csdn.net/default7/article/details/73368665
  安装程序依赖,进入程序目录,输入:pip3 install -r requirements.txt
3.程序安装
  修改silumz下settings.py文件中数据库的配置
  DATABASES = {
      'default': {
          'ENGINE': 'django.db.backends.mysql',
          'NAME': 'xxxx',
          'USER': 'root',
          'PASSWORD': 'xxxx',
          'HOST': '127.0.0.1',
          'PORT': '3306',
      }
  }
  创建相应数据库,导入程序目录下的sql文件
  修改nginx配置文件(centos7  /etc/nginx/nginx.conf)
  配置文件的server中的location字段如下修改
  location / {
            proxy_pass   http://127.0.0.1:8000;
            index  index.html index.htm;
        }
  重启nginx,访问网站即可
4.修改爬虫中的数据库地址
  爬虫位于crawler目录下,每一个文件都是独立的,可单独执行
  建议第一次运行时修改爬虫参数为采集全站,运行完修改参数为采集第一页,然后在linux中添加定时任务。实现自动采集
5.启动程序
  进入程序目录,uwsgi --ini uwsgi.ini
6.模板修改
  修改silumz下settings文件中的模板配置
  TEMPLATES = [
    {
        'BACKEND': 'django.template.backends.django.DjangoTemplates',
        'DIRS': [os.path.join(BASE_DIR, 'templates'+"/"+"94imm")]
  94imm为模板名
  模板文件位于templates文件夹下,修改相应页面
7.其他配置
  将模板目录下的pagination.html文件放入python安装目录的/site-packages/dj_pagination/templates/pagination/下
  (centos7  /usr/lib/python3.6/site-packages/dj_pagination/templates/pagination)
8.备注说明
  其他系统请自行百度mysql python3.6.5 nginx的安装方法,程序安装方法相同
更新内容
9.自动发布位于crawler下,执行python3 AutoPost.py 即可,注意输入文件夹时选择图片根目录,脚本会自动获取根目录下的所有子目录,并将子目录名作为标题,并复制子目录下所有文件到static/images/随机7个字母/ 下并删除源文件
10.压缩脚本位于crawler下,执行python3 Compress.py 即可,演示时使用兔玩的图片,发现图片太大,平均每张1M左右,600多套就占30G。所以写了个批量压缩脚本,同样是输入图片根目录,可以选在覆盖原图或在新目录压缩

不明白的跟帖或加qq 386523048

作者:saskeke

支持作者:sunsea.im

查看原帖:https://www.hostloc.com/thread-507774-1-1.html

发表评论

电子邮件地址不会被公开。 必填项已用*标注