2023-02-20 08:09:15bruceykon3

Python爬蟲學習之利用BeautifulSoup庫爬取開

網站架設
mylog.py
  1. import logging
  2. import getpass
  3. import sys
  4.  
  5. class MyLog(object):
  6.     def __init__(self):
  7.         self.user = getpass.getuser()
  8.         self.logger = logging.getLogger(self.user)
  9.         self.logger.setLevel(logging.DEBUG)
  10.         ### 日誌檔名
  11.         self.logFile = sys.argv[0][0:-3]+'.log'
  12.         self.formatter = logging.Formatter('%(asctime)-12s %(levelname)-8s %(name)-10s %(message)-12s\r\n')
  13.         ### 日誌顯示到銀幕上並輸出到日誌檔內
  14.         self.logHand = logging.FileHandler(self.logFile, encoding='utf8')
  15.         self.logHand.setFormatter(self.formatter)
  16.         self.logHand.setLevel(logging.DEBUG)
  17.  
  18.         self.logHandSt = logging.StreamHandler()
  19.         self.logHandSt.setFormatter(self.formatter)
  20.         self.logHandSt.setLevel(logging.DEBUG)
  21.  
  22.         self.logger.addHandler(self.logHand)
  23.         self.logger.addHandler(self.logHandSt)
  24.  
  25.     ### 日誌的 5 個級別對應以下的5個函數
  26.     def debug(self,msg):
  27.         self.logger.debug(msg)
  28.     def info(self,msg):
  29.         self.logger.info(msg)
  30.     def warning(self,msg):
  31.         self.logger.warning(msg)
  32.     def error(self,msg):
  33.         self.logger.error(msg)
  34.     def critical(self,msg):
  35.         self.logger.critical(msg)
  36.  
  37. if __name__ == '__main__':
  38.     mylog = MyLog()
  39.     mylog.debug(u"I'm debug 測試中文")
  40.     mylog.info("I'm info")
  41.     mylog.warning("I'm warning")
  42.     mylog.error(u"I'm error 測試中文")
  43.     mylog.critical("I'm critical")
複製代碼
實例後果:
  數據量有點大,可能需要等一會兒,下面為程序運行竣事後的文件夾。
   
  __pycache__文件夾為程序運行主動生成的文件夾,不用管。
   

 

4.png

實例需求:應用python語言爬取http://kaijiang.zhcw.com/zhcw/html/ssq/list_1.html這個開獎網站所有的信息,並且留存為txt文件和excel文件。
實例情況:python3.7
       BeautifulSoup庫、xlwt庫(需手動安裝)
       urllib庫、re庫(內置的python庫,無需手動安裝)
實例網站:
  第一步,點擊鏈接http://kaijiang.zhcw.com/zhcw/html/ssq/list_1.html進入網站,查看網站基本信息,注意一共要爬取118頁數據。
   1.png
  第二步,查看網頁源代碼,熟習網頁構造,標籤等信息。
   2.png
實例思緒: 
  一個爬蟲程序的結構:
   1、調劑模塊(Scheduler):安排建議收集請求的策略
   2、收集模塊(network):發起收集請求,並接受服務器返回
   3、爬蟲模塊(Spider):解析、爬取數據
   4、Item模塊:界說爬取的數據項
   5、Piplines模塊:對已爬取的數據做後續處置(存入數據庫、存入文件系統、傳遞給流式處置懲罰框架,等等)
   下面的示例法式根基實現了上述幾個模板
實例代碼:
  getWinningNum.py
  1. from bs4 import BeautifulSoup
  2. import urllib.request
  3. from mylog import MyLog as mylog
  4.  
  5.  
  6. # 4、  Item模块  定义爬取的数据项
  7. class DoubleColorBallItem(object):
  8.     date = None
  9.     order = None
  10.     red1 = None
  11.     red2 = None
  12.     red3 = None
  13.     red4 = None
  14.     red5 = None
  15.     red6 = None
  16.     blue = None
  17.     money = None
  18.     firstPrize = None
  19.     secondPrize = None
  20.  
  21.  
  22. class GetDoubleColorBallNumber(object):
  23.     def __init__(self):
  24.         self.urls = []
  25.         self.log = mylog()
  26.         self.getUrls()
  27.         self.items = self.spider(self.urls)
  28.         self.pipelines(self.items)
  29.         #SavaBallDate(self.items)
  30.  
  31.     # 获取 urls 的函数
  32.     def getUrls(self):
  33.         URL = r'http://kaijiang.zhcw.com/zhcw/html/ssq/list_1.html'
  34.         htmlContent = self.getResponseContent(URL)
  35.         soup = BeautifulSoup(htmlContent, 'lxml')
  36.         tag = soup.find_all('p')[-1]
  37.         pages = tag.strong.get_text()
  38.         for i in range(1, int(pages) + 1):
  39.             url = r'http://kaijiang.zhcw.com/zhcw/html/ssq/list_' + str(i) + '.html'
  40.             self.urls.append(url)
  41.         return self.urls
  42.  
  43.     # 3、    网络模块(NETWORK)发起网络请求,并接管服务器返回
  44.     def getResponseContent(self, url):
  45.         try:
  46.             response = urllib.request.urlopen(url)
  47.         #except URLError as e:
  48.         except:
  49.             self.log.error(u'Python 返回 URL:%s 資料失敗 ' %url)
  50.         else:
  51.             self.log.info(u'Python 返回 URL:%s 資料成功 \r\n' %url)
  52.             return response.read().decode("utf-8")
  53.  
  54.     # 3、    爬虫模块(Spider) 解析、爬取数据
  55.     def spider(self, urls):
  56.         items = []
  57.         for url in urls:
  58.             try:
  59.                 htmlContent = self.getResponseContent(url)
  60.                 soup = BeautifulSoup(htmlContent, 'lxml')
  61.                 tags = soup.find_all('tr', attrs={})
  62.                 for tag in tags:
  63.                     if tag.find('em'):
  64.                         item = DoubleColorBallItem()
  65.                         tagTd = tag.find_all('td')
  66.                         item.date = tagTd[0].get_text()
  67.                         item.order = tagTd[1].get_text()
  68.                         tagEm = tagTd[2].find_all('em')
  69.                         item.red1 = tagEm[0].get_text()
  70.                         item.red2 = tagEm[1].get_text()
  71.                         item.red3 = tagEm[2].get_text()
  72.                         item.red4 = tagEm[3].get_text()
  73.                         item.red5 = tagEm[4].get_text()
  74.                         item.red6 = tagEm[5].get_text()
  75.                         item.blue = tagEm[6].get_text()
  76.                         item.money = tagTd[3].find('strong').get_text()
  77.                         item.firstPrize = tagTd[4].find('strong').get_text()
  78.                         item.secondPrize = tagTd[5].find('strong').get_text()
  79.                         items.append(item)
  80.             except Exception as e:
  81.                 raise e
  82.                 # print(str(e))
  83.         return items
  84.  
  85.     # Piplines模块:对已经爬取的数据做后续处理(存入数据库、存入文件系统、传递给流式处理框架,等等)
  86.     def pipelines(self, items):
  87.         fileName = u'双色球.txt'
  88.         with open(fileName, 'w') as fp:  # a 为追加   w 为覆盖若存在
  89.             for item in items:
  90.                 fp.write('%s %s \t %s %s %s %s %s %s  %s \t %s \t %s %s \n'
  91.                          % (item.date, item.order, item.red1, item.red2, item.red3, item.red4, item.red5, item.red6,
  92.                             item.blue, item.money, item.firstPrize, item.secondPrize))
  93.  
  94.  
  95. if __name__ == '__main__':
  96.     GDCBN = GetDoubleColorBallNumber()
複製代碼
   

 

3.png

參考文章https://www.programminghunter.com/article/6471482213/

 

5.png



文章出自: