python3提取京东商品sku - 个人心得记录分享

一、引用模块

import requests
from bs4 import BeautifulSoup
import re

二、代码

def ss(sku):
    url = 'https://item.jd.com/'+str(sku)+'.html'

    header = {
            "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36"}

    r = requests.get(url , headers = header)
    r.encoding = 'utf-8'
    soup = BeautifulSoup(r.text , 'html.parser')

    a = soup.prettify()#让内容更加友好地显示，它的作用就是使解析出来的html程序“每逢标签，自动换行”可以对程序起到很好的辅助作用
    r = re.search('colorSize:(.*)warestatus', a)#正则取出包含sku的对象
    e = r.group(1).rstrip()[:-1]  #rstrip()去除尾空格  [:-1]去掉最后一个字符
    #print(e) 

    if e.find("skuId") == -1:
        return "链接里就只有一个sku你提取它干嘛"
    else:
        return e