python 抓取電影天堂電影信息放入數據庫

阿新 • • 發佈：2018-02-27

python mysql 電影

# coding:utf-8
import requests
from bs4 import BeautifulSoup
from multiprocessing import Pool
import urllib2
import re
import json
import chardet
import pymysql
# url = "http://dytt8.net/"
# page = requests.get(url).content
# page_html = BeautifulSoup(page,‘lxml‘)

# name = page_html.select("td.inddline > a:nth-of-type(2)")
# for n in name:
#     if ‘dyzz‘ in n.encode(‘gbk‘):
#         print n.encode(‘gbk‘)
#         file = open("move.txt","a+")
#         file.write(n.encode(‘utf-8‘)+‘\n‘)
#         file.close()

def getmoveinfo( url ):
    page = requests.get(url).content
    page_html = BeautifulSoup(page,‘lxml‘)
    # title = page_html.select("div.title_all")
    # title = title[4].select("h1")
    # title = title[0].select("font")
    # return title[0].contents;
    title = page_html.find_all("font", attrs={"color": "#07519a"})
    title_content = title[0].contents
    if(re.findall(r"譯　　名(.*?)<br/>", str(page_html))):
        yiming = re.findall(r"譯　　名(.*?)<br/>", str(page_html))[0]
    else:
        yiming = ‘‘
    if(re.findall(r"類　　別(.*?)<br/>", str(page_html))):
        leibie = re.findall(r"類　　別(.*?)<br/>", str(page_html))[0]
    else:
        leibie = ‘‘
    if(re.findall(r"語　　言(.*?)<br/>", str(page_html))):
        yuyan = re.findall(r"語　　言(.*?)<br/>", str(page_html))[0]
    else:
        yuyan = ‘‘
    if(re.findall(r"字　　幕(.*?)<br/>", str(page_html))):
        zimu = re.findall(r"字　　幕(.*?)<br/>", str(page_html))[0]
    else:
        zimu = ‘‘
    if(re.findall(r"上映日期(.*?)<br/>", str(page_html))):
        date = re.findall(r"上映日期(.*?)<br/>", str(page_html))[0]
    else:
        date = ‘‘
    if(re.findall(r"豆瓣評分(.*?)<br/>", str(page_html))):
        douban = re.findall(r"豆瓣評分(.*?)<br/>", str(page_html))[0]
    else:
        douban = ‘‘
    if(re.findall(r"片　　長(.*?)<br/>", str(page_html))):
        pianchang = re.findall(r"片　　長(.*?)<br/>", str(page_html))[0]
    else:
        pianchang = ‘‘
    if(re.findall(r"導　　演(.*?)<br/>", str(page_html))):
        daoyan = re.findall(r"導　　演(.*?)<br/>", str(page_html))[0]
    else:
        daoyan = ‘‘
    if(re.findall(r"主　　演(.*?)<br/>", str(page_html))):
        zhuyan = re.findall(r"主　　演(.*?)<br/>", str(page_html))[0]
    else:
        zhuyan = ‘‘
    if(re.findall(r"簡　　介(.*?)【下載地址】", str(page_html))):
        jianjie = re.findall(r"簡　　介(.*?)【下載地址】", str(page_html))[0]
    else:
        jianjie = ‘‘

    addres = page_html.find_all("td", attrs={"bgcolor": "#fdfddf"})
    if(addres):
        addres = addres[0].contents;
        addres = addres[0].get("href").encode(‘utf-8‘)
    else:
        addres = ‘‘
    res = {}
    res[‘title‘] =title_content[0].encode("utf-8")
    res[‘yiming‘] = yiming
    res[‘leibie‘] = leibie
    res[‘yuyan‘] = yuyan
    res[‘zimu‘] = zimu
    res[‘date‘] = date
    res[‘douban‘] = douban
    res[‘pianchang‘] = pianchang
    res[‘daoyan‘] = daoyan
    res[‘zhuyan‘] = zhuyan
    res[‘jianjie‘] = jianjie.replace("<br/>", "")
    res[‘addres‘] = addres
    return res

url = "http://dytt8.net/"
page = requests.get(url).content
page_html = BeautifulSoup(page,‘lxml‘)

name = page_html.select("td.inddline > a:nth-of-type(2)")

conn = pymysql.connect(host=‘localhost‘,port=3306,user=‘root‘,password=‘root‘,db=‘moves‘,charset=‘utf8‘)
cursor = conn.cursor()

for n in name:
    if ‘dyzz‘ in n.encode(‘gbk‘):
        info = getmoveinfo("http://dytt8.net"+n.get("href"))
        title = info[‘title‘]
        yiming = info[‘yiming‘]
        leibie = info[‘leibie‘]
        yuyan = info[‘yuyan‘]
        zimu = info[‘zimu‘]
        date = info[‘date‘]
        douban = info[‘douban‘]
        pianchang = info[‘pianchang‘]
        daoyan = info[‘daoyan‘]
        zhuyan = info[‘zhuyan‘]
        jianjie = info[‘jianjie‘]
        addres = info[‘addres‘]
        # print title.decode(‘utf-8‘).encode(‘gbk‘)
        cursor.execute("INSERT INTO move_info(title,yiming,leibie,yuyan,zimu,date,douban,pianchang,daoyan,zhuyan,jianjie,addres)VALUES(‘{0}‘,‘{1}‘,‘{2}‘,‘{3}‘,‘{4}‘,‘{5}‘,‘{6}‘,‘{7}‘,‘{8}‘,‘{9}‘,‘{10}‘,‘{11}‘);".format(title,yiming,leibie,yuyan,zimu,date,douban,pianchang,daoyan,zhuyan,jianjie,addres))
        conn.commit()

cursor.close()
conn.close()
print ‘ok‘

python mysql 電影 # coding:utf-8 import requests from bs4 import BeautifulSoup from multiprocessing import Pool import urllib2 import re import json im

python 抓取"一個"網站文章信息放入數據庫

python 文章爬蟲 # coding:utf-8 import requests from bs4 import BeautifulSoup import json import time import datetime import pymysql import sys reload(sy

利用Python實現讀取Nginx日誌，並將需要信息寫入到數據庫。

creat rip ger form use nginx日誌 zabbix 創建 auth #!/usr/bin/env python # coding: utf-8 # Auther:liangkai # Date:2018/6/26 11:26 # License: (

用Python抓取並分析了1982場英雄聯盟數據，教你開局前預測遊戲對局勝負！

cross 2018年 eva root 結果 sigmoid tcl optimizer json 英雄聯盟想必大多數讀者不會陌生，這是一款來自拳頭，由騰訊代理的大型網絡遊戲，現在一進網吧，你就能發現一大片玩英雄聯盟的人。在2017年中國戰隊無緣鳥巢的世界總決賽後，一大片

區塊鏈能為教育帶來什麽? 構建一個信息認證管理數據庫

rpd .html ref pbd question blog hdp iso clas o2qss0蒙輾夜史銜魏http://wenda.cngold.org/question743374.htmnpjfz7研運某顆馗陌http://wenda.cngold.org/qu

Hive學習之路（三）Hive元數據信息對應MySQL數據庫表

需要 pri from metastore node rom lazy 測試安裝概述 Hive 的元數據信息通常存儲在關系型數據庫中，常用MySQL數據庫作為元數據庫管理。上一篇hive的安裝也是將元數據信息存放在MySQL數據庫中。 Hive的元數據信息在MySQ

微信登錄時用戶信息無法寫入數據庫

tp5 特殊 mys linux name 字節定位 set 開源問題：微信登錄時，由於用戶名中帶有特殊字符，無法寫入數據庫環境： linux/nginx/mysql/php 做了一個公眾號網頁開發的項目，拿一個網上開源的商城進行二開，框架是TP5。最近碰到一個

學生信息管理系統數據庫設計

3-0 exist website student htm status path www. clas 表名tb_school（學校表：存儲學校的基本信息）字段類型介紹屬性其他 schoolid Int 學校id

重寫慢日誌解析程序，實現打印慢SQL信息及其所屬數據庫

數據庫 sta timestamp port read oat lock filename 慢日誌分組自研的審計平臺最近推出慢SQL優化的功能，topN慢SQL可以通過mysqldumpslow拿到，但由於mysqldumpslow輸出的信息不包含數據庫，這讓程序後續的自

微信小程序實現獲取用戶信息並存入數據庫操作示例

val 查詢 name nbsp ech nod ESS 速度 item 微信小程序獲取用戶信息簡單，但是在存入自己服務器數據庫的過程中研究了一天多的時間，並且網上搜索不到該資源，故發出來供大家參考。 index.js ? 1 2 3

Python 爬取淘寶商品信息和相應價格

獲得 com ppa pri 大小 light parent tps 爬取！只用於學習用途！ plt = re.findall(r‘\"view_price\"\:\"[\d\.]*\"‘,html) ：獲得商品價格和view_price字段，並保存在plt中 tlt =

python爬取nba今天的信息

headers pri 獨行俠 agent ade 偉大的 mozilla 勝利開拓者最近無聊在寫python爬蟲，分享一個爬去nba今天信息的python腳本，可能沒寫的美觀，有優化的請大神指點！? /test sudo vim nba.py #!/usr/bin/

Python爬取CFDA化妝品生產信息

req image src 態度天使後悔協議中心 source 環境：Python3.6+Windows 開發工具：你喜歡用啥就用啥，總而言之，言而總之你開心就好使用的Python模塊 requests Requests 是用Python語言編寫，基於u

SpringCloud系列九：SpringCloudConfig 基礎配置（SpringCloudConfig 的基本概念、配置 SpringCloudConfig 服務端、抓取配置文件信息、客戶端使用 SpringCloudConfig 進行配置、單倉庫目錄匹配、應用倉庫自動選擇、倉庫匹配模式）

servers driver 這樣的 .com tco ces 上傳 [] 應用名 1、概念：SpringCloudConfig 基礎配置 2、具體內容通過名詞就可以發現，SpringCloudConfig 核心作用一定就在於進行配置文件的管理上。也就是說為了更好的進行所

python 抓取電影天堂電影信息放入數據庫

python 抓取電影天堂電影信息放入數據庫

python 抓取"一個"網站文章信息放入數據庫

利用Python實現讀取Nginx日誌，並將需要信息寫入到數據庫。

用Python抓取並分析了1982場英雄聯盟數據，教你開局前預測遊戲對局勝負！

區塊鏈能為教育帶來什麽? 構建一個信息認證管理數據庫

Hive學習之路（三）Hive元數據信息對應MySQL數據庫表

微信登錄時用戶信息無法寫入數據庫

學生信息管理系統數據庫設計

重寫慢日誌解析程序，實現打印慢SQL信息及其所屬數據庫

微信小程序實現獲取用戶信息並存入數據庫操作示例

Python 爬取淘寶商品信息和相應價格

python爬取nba今天的信息

Python爬取CFDA化妝品生產信息

SpringCloud系列九：SpringCloudConfig 基礎配置（SpringCloudConfig 的基本概念、配置 SpringCloudConfig 服務端、抓取配置文件信息、客戶端使用 SpringCloudConfig 進行配置、單倉庫目錄匹配、應用倉庫自動選擇、倉庫匹配模式）

Python爬蟲9-----實例-抓取上海高級人民法院網開庭公告數據

Python爬取彩票雙色球並存到把數據excel表格裏

運維學python之爬蟲中級篇（九）Python3 MySQL 數據庫連接

MongoDB與python交互！這才是正確玩轉數據庫的正確方式！

java將配置信息寫在數據庫(利用反射)

【python基礎】用字典做一個小型的查詢數據庫

python 抓取電影天堂電影信息放入數據庫

相關推薦