0°

Python快速爬取ip138网站链接资源

企鹅群:455535550(聊天群,游客勿加,渣男勿加,伸手党勿加...)
广告


干货分享公众号『几颗黑橙子』

黑科技软件资讯游戏分享,日更~(若发现广告中存在违法欺诈行为请私信举报~)

使用python爬取网页资源
import requests
import re
import time

i = 0
while(True):
    url = "https://site.ip138.com/ip139.cm/whois.htm"
    # , 'Referer': 'Referer: https://site.ip138.com/ip138.cm/whois.htm'

    headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.105 Safari/537.36'}
    response= requests.get(url,headers = headers)

    print(response.status_code)
    # response.status_code
    # print(response.request.headers)

    response.encoding = response.apparent_encoding
    html = response.text

    # print(re.findall(r'<li><a href="/([\w\.]*)/"', html))
    # print(re.findall(r'target="_blank">([^\x00-\xff]*)</a></li>', html))

    editHtml = re.findall(r'target="_blank">([a-zA-Z0-9\.]*)</a></li>', html)

    # 将列表转换为集合,防止重复值a
    setHtml = set(editHtml)
    # listHtml = list(setHtml)

    # print(setHtml)
    # 写入数据
    nextLine = '\n'

    # file = open(r"D:\Demo File\工具\adress.txt","w")
    # file = open(r"C:\Users\15429\Desktop\adress.txt","w")
    file = open(r"C:\Users\15429\Desktop\adress_http.csv", "a")


    file.write(nextLine.join(setHtml))

    file.close()

    print('数据导出成功,开始睡眠!')
    time.sleep(5)
    i = i + 1
    if 60*i > 3500 :
        break
    else:
        print('大约导出:', 60*i)



# 使bs4获取标
# soup = BeautifulSoup(html,"html.parser")
# print(soup.a)


# def getHttpStatusCode(url):
#     userAgent = {"user-agent": "Mozilla/5.0 (X11; Linux x86_64; rv:45.0) Gecko/20100101 Firefox/45.0"}  # 添加一个user-agent,访问反爬虫策略严格的网站很有用
#     timeOut = 5  # 请求超时时间设置为5秒
#     int httpStatusCode = 200;
#     if httpStatusCode ==200 :
#         request = requests.get(url, headers=userAgent, timeout=timeOut)
#         httpStatusCode = request.status_code
#         print(httpStatusCode)
#
#
# for each in range(len(listHtml)):
#     print(listHtml[each])
#     url = "http://" + listHtml[each]  # 执行程序接受url作参数
#     getHttpStatusCode(url)

/(ㄒoㄒ)/~~:手打链接,用于获取ip138的网页地址资源,做一个自己地址库,上传不了图片,贴不了效果图了,感兴趣可以私信我哦!

steam单击游戏绿化版合集下载:4k网游戏栏目

免责声明:

本站提供的资源,都来自网络,版权争议与本站无关,所有内容及软件的文章仅限用于学习和研究目的。不得将上述内容用于商业或者非法用途,否则,一切后果请用户自负,我们不保证内容的长久可用性,通过使用本站内容随之而来的风险与本站无关,您必须在下载后的24个小时之内,从您的电脑/手机中彻底删除上述内容。如果您喜欢该程序,请支持正版软件,购买注册,得到更好的正版服务。侵删请致信E-mail:i@zcjun.com

2 条回复 A 作者 M 管理员
  1. 求教这个怎么使用?

欢迎您,新朋友,感谢参与互动!欢迎您 {{author}},您在本站有{{commentsCount}}条评论

搜索

跳转

复制

通知

本站无需充值, 签到就有积分

感谢网友一直以来的支持

Close