数据抓取艺术——以KC网为例

find_name = re.compile(r'<div class="article-panel-title"><a class="article-panel-tit.*?<span.*?>([\s\S]*?)</span></a>')
find_time = re.compile(r'data-time-type="fromNow" data-type="nkcTimestamp" title="(..........)')
find_synopsis = re.compile(r'<div class="article-panel-abstract"><a href="/t/.*?" target="_blank">([\s\S]*?)</a></div>')
find_serial = re.compile(r'data-article-tid="(.*?)"')
thread_list = []

for i in range(0, 10):
    thread = threading.Thread(target=down_task, args=[i])#这个args能传进去参数
    thread.start()
    thread_list.append(thread)

for t in thread_list:
    t.join()
#请求头，可以带入cookis因为有些网站需要登录才能查看内容
headers = {
    "Cookie":"userInfo=xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx"    #换成你自己的
    # "User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36 Edg/120.0.0.0"
}
def down_task(task_num):
    global i_num
    try:
        for i in range(0, 1220, 10):#这个1220是因为我有权限阅读的文章刚好就是1220页（2024.2.3）
            i_num = i
            response = requests.get(f"https://www.kechuang.org/c/new?page={i+task_num}&t=thread&s=toc", headers = headers, timeout = 20)
            time.sleep(0.5)
            html = response.text
            time.sleep(0.5)
            # 接下来是逐一解析数据
            bs = BeautifulSoup(html, 'html.parser')
            # 使用标签 + 属性组合查找，查找标签块
            f_list = bs.find_all('div', attrs={"class": "articles-panel-item style-abstract"})
            # print(f_list)
            for f in f_list:
                data = []
                # 将正则表达式提取的内容赋值给自定义变量
                fine_time = set_film(find_time, str(f))
                file_name = set_film(find_name, str(f))
                fine_synopsis = set_film(find_synopsis, str(f))
                fine_serial = set_film(find_serial, str(f))
                # 将所有需要的数据保存到data列表
                data.append(fine_time)
                data.append(file_name)
                data.append(fine_serial+' '+str(i+task_num))
                data.append(fine_synopsis)


                # 写入data（单条文章信息）列表，到总的 data_list（所有文章信息）列表
                data_list.append(data)
                print(data)
            response.close()
    except:#保存报错信息
        file = open('C:/Users/lyl/Desktop/kechuang/original_file/error.txt', 'w', encoding='utf-8')
        file.write('error' + " {} {}".format(i_num,task_num) + '\n')#知道哪条线程error了
        file.close()
        errorFile = open('log.txt', 'a')
        traceback.print_exc()
        errorFile.write(traceback.format_exc() + '\n')#报错信息写入日志文件
        errorFile.close()
requests.exceptions.SSLError: HTTPSConnectionPool(host='www.kechuang.org', port=443): Max retries exceeded with url: /c/new?page=771&t=thread&s=toc (Caused by SSLError(SSLEOFError(8, 'EOF occurred in violation of protocol (_ssl.c:1002)')))
requests.exceptions.ChunkedEncodingError: ('Connection broken: IncompleteRead(4090 bytes read, 4248 more expected)', IncompleteRead(4090 bytes read, 4248 more expected))
def set_film(file, content):
#这是防止有些内容是空的，就会报错，先判断是否非空
# 检查查找内容的长度，如果不为0，说明查找到内容，则将内容转换成字符串类型
    if len(re.findall(file, content)) != 0:
        film = str(re.findall(file, content)[0])
    else:
        film = "--空--"

    return film
def save_data_txt(datas, save_file):
    # 打开文本选择写模式，并指定编码格式
    file = open(save_file, 'w', encoding='utf-8')
    # 不能直接写入list，所以通过遍历一条条写入
    for data in datas:
        for dat in data:
            file.write(dat + '\n')
        file.write('--next--' + '\n')
    file.close()
#设置格式
def set_font(bold, size, horz):
    # 创建xlwt格式对象
    style_font = xlwt.XFStyle()
    # 设置字体是否为粗体
    style_font.font.bold = bold
    # 设置字体尺寸大小
    style_font.font.height = size
    # 字体是否居中
    if horz:
        # 设置字体水平居中
        style_font.alignment.horz = 0x02
        # 设置字体垂直居中
        style_font.alignment.vert = 0x01
    # 设置单元格自动换行
    style_font.alignment.wrap = False

    # 返回设置的字体样式
    return style_font

# 保存数据到excel文件中
def save_data_excel(datas, save_path):
    # 创建一个xlwt对象，使用utf-8编码格式
    excel = xlwt.Workbook(encoding='utf-8')
    # 创建一个工作表，命名为top250
    sheet = excel.add_sheet('kechuang')

    # 设置列的列宽
    width_c = [256*15, 256*40, 256*10, 256*2560]
    for i in range(0, 3):
        sheet.col(i).width = width_c[i]

    # 设置三种单元格样式 set_font(粗体，尺寸，居中)
    style_font_title = set_font(True, 240, True)
    style_font_content = set_font(False, 220, True)
    style_font_content1 = set_font(False, 220, False)

    # 表格各列的列名
    titles = ['time', 'name', 'serial', 'synopsis']
    index = 0
    # 将标题写入excel
    for title in titles:
        # (单元格行序号，单元格列序号，单元格的内容，单元格样式)
        sheet.write(0, index, title, style_font_title)
        index += 1
    # 将数据写入excel
    index_r = 1
    for data in datas:
        index_c = 0
        for item in data:
            sheet.write(index_r, index_c, item, style_font_content1)
            index_c += 1
        index_r += 1
    # 保存excel文件到指定路径
    excel.save(save_path)
def read_data_in_list():#数据读入数组
    with open('C:/Users/lyl/Desktop/kechuang/original_file/all.txt', 'r', encoding='utf-8') as file:
        for line in file:
            data_all.append(line.strip())
            
def save_data_name(datas, year, flag):
    # 打开文本选择写模式，并指定编码格式
    b = 0
    file = open('C:/Users/lyl/Desktop/kechuang/{}_{}.txt'.format(year, flag), 'w', encoding='utf-8')
    # 不能直接写入list，所以通过遍历一条条写入
    for data in datas:
        # print(data)
        matches = re.findall(re.compile(r'(\b\d{4}\b)/\d{2}/\d{2}'), data)#正则表达式匹配
        if matches:
            if str(re.findall(re.compile(r'(\b\d{4}\b)/\d{2}/\d{2}'), data)[0]) == str(year):
                # print(re.findall(re.compile(r'(\b\d{4}\b)/\d{2}/\d{2}'), data)[0])
                if flag == 1:
                    file.write(datas[b + 1] + '\n')
                else:
                    file.write(datas[b + 1] + ' ')
                # print(datas[b+1])
        b += 1
    # file.write('----------------------------------' + '\n')
    file.close()
#有些库缺失的自行下载，有些不是必要的库
from bs4 import BeautifulSoup
import requests
from lxml import etree
import csv
import time
import re
import urllib.request as req
import xlwt
import threading
import traceback
import logging
#正则表达式匹配

find_time = re.compile(r'data-time-type="fromNow" data-type="nkcTimestamp" title="(..........)')
find_name = re.compile(r'<div class="article-panel-title"><a class="article-panel-tit.*?<span.*?>([\s\S]*?)</span></a>')
find_synopsis = re.compile(r'<div class="article-panel-abstract"><a href="/t/.*?" target="_blank">([\s\S]*?)</a></div>')
find_serial = re.compile(r'data-article-tid="(.*?)"')
#一个list，后面读取数据和处理数据要用到
data_all = []
data_list = []
i_num=0
#60 970
def set_film(file, content):
#这是防止有些内容是空的，就会报错，先判断是否非空
# 检查查找内容的长度，如果不为0，说明查找到内容，则将内容转换成字符串类型
    if len(re.findall(file, content)) != 0:
        film = str(re.findall(file, content)[0])
    else:
        film = "--空--"

    return film

#请求头，可以带入cookis因为有些网站需要登录才能查看内容
headers = {
    "Cookie":"userInfo=xxxxxxxx; userInfo.sig=xxxxxxxxx"
    # "User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36 Edg/120.0.0.0"
}

#把获取到的数据写入.txt方便后续二次处理
def save_data_txt(datas, save_file):
    # 打开文本选择写模式，并指定编码格式
    file = open(save_file, 'w', encoding='utf-8')
    # 不能直接写入list，所以通过遍历一条条写入
    for data in datas:
        for dat in data:
            file.write(dat + '\n')
        file.write('--next--' + '\n')
    file.close()


def set_font(bold, size, horz):
    # 创建xlwt格式对象
    style_font = xlwt.XFStyle()
    # 设置字体是否为粗体
    style_font.font.bold = bold
    # 设置字体尺寸大小
    style_font.font.height = size
    # 字体是否居中
    if horz:
        # 设置字体水平居中
        style_font.alignment.horz = 0x02
        # 设置字体垂直居中
        style_font.alignment.vert = 0x01
    # 设置单元格自动换行
    style_font.alignment.wrap = False

    # 返回设置的字体样式
    return style_font

# 保存数据到excel文件中
def save_data_excel(datas, save_path):
    # 创建一个xlwt对象，使用utf-8编码格式
    excel = xlwt.Workbook(encoding='utf-8')
    # 创建一个工作表，命名为top250
    sheet = excel.add_sheet('kechuang')

    # 设置列的列宽
    width_c = [256*15, 256*40, 256*10, 256*2560]
    for i in range(0, 3):
        sheet.col(i).width = width_c[i]

    # 设置三种单元格样式 set_font(粗体，尺寸，居中)
    style_font_title = set_font(True, 240, True)
    style_font_content = set_font(False, 220, True)
    style_font_content1 = set_font(False, 220, False)

    # 表格各列的列名
    titles = ['time', 'name', 'serial', 'synopsis']
    index = 0
    # 将标题写入excel
    for title in titles:
        # (单元格行序号，单元格列序号，单元格的内容，单元格样式)
        sheet.write(0, index, title, style_font_title)
        index += 1
    # 将数据写入excel
    index_r = 1
    for data in datas:
        index_c = 0
        for item in data:
            sheet.write(index_r, index_c, item, style_font_content1)
            index_c += 1
        index_r += 1
    # 保存excel文件到指定路径
    excel.save(save_path)

#爬虫主体，使用了多线程，但没有使用锁，因为数据乱序不影响制作词云图
def down_task(task_num):
    global i_num
    try:
        for i in range(0, 1220, 10):
            i_num = i
            response = requests.get(f"https://www.kechuang.org/c/new?page={i+task_num}&t=thread&s=toc", headers = headers, timeout = 20)
            time.sleep(0.5)
            html = response.text
            time.sleep(0.5)
            # 接下来是逐一解析数据
            bs = BeautifulSoup(html, 'html.parser')
            # 使用标签 + 属性组合查找，查找<div class="item"></div>的标签块
            f_list = bs.find_all('div', attrs={"class": "articles-panel-item style-abstract"})
            # print(f_list)
            for f in f_list:
                data = []
                # 将正则表达式提取的内容赋值给自定义变量
                fine_time = set_film(find_time, str(f))
                file_name = set_film(find_name, str(f))
                fine_synopsis = set_film(find_synopsis, str(f))
                fine_serial = set_film(find_serial, str(f))
                # 将所有需要的数据保存到data列表
                data.append(fine_time)
                data.append(file_name)
                data.append(fine_serial+' '+str(i+task_num))
                data.append(fine_synopsis)


                # 写入data（单条文章信息）列表，到总的 data_list（所有文章信息）列表
                data_list.append(data)
                print(data)
            response.close()
    except:
        file = open('C:/Users/lyl/Desktop/kechuang/original_file/error.txt', 'w', encoding='utf-8')
        file.write('error' + " {} {}".format(i_num,task_num) + '\n')#指示报错的线程和页码
        file.close()
        errorFile = open('log.txt', 'a')
        traceback.print_exc()
        errorFile.write(traceback.format_exc() + '\n')
        errorFile.close()


def save_data_name(datas, year, flag):
    # 打开文本选择写模式，并指定编码格式
    b = 0
    file = open('C:/Users/lyl/Desktop/kechuang/{}_{}.txt'.format(year, flag), 'w', encoding='utf-8')
    # 不能直接写入list，所以通过遍历一条条写入
    for data in datas:
        # print(data)
        matches = re.findall(re.compile(r'(\b\d{4}\b)/\d{2}/\d{2}'), data)
        if matches:
            if str(re.findall(re.compile(r'(\b\d{4}\b)/\d{2}/\d{2}'), data)[0]) == str(year):
                # print(re.findall(re.compile(r'(\b\d{4}\b)/\d{2}/\d{2}'), data)[0])
                if flag == 1:
                    file.write(datas[b + 1] + '\n')
                else:
                    file.write(datas[b + 1] + ' ')
                # print(datas[b+1])
        b += 1
    # file.write('----------------------------------' + '\n')
    file.close()

def read_data_in_list():
    with open('C:/Users/lyl/Desktop/kechuang/original_file/all.txt', 'r', encoding='utf-8') as file:
        for line in file:
            data_all.append(line.strip())

#开始计时
start1 = time.time()
thread_list = []
#创建10条线程并发下载，要不然太慢了，但也不能多，dos攻击封ip了
for i in range(0, 10):
    thread = threading.Thread(target=down_task, args=[i])#args传入参数
    thread.start()
    thread_list.append(thread)
for t in thread_list:
    t.join()

save_excel_path = 'C:/Users/lyl/Desktop/kechuang/original_file/all.xls'
save_data_excel(data_list, save_excel_path)
save_txt_path = 'C:/Users/lyl/Desktop/kechuang/original_file/all.txt'
save_data_txt(data_list, save_txt_path)

#数据处理，建议先注释掉数据处理的，数据爬取和数据处理分开进行
read_data_in_list()
for year in range(2005, 2025):#按年份把标题分开
    save_data_name(data_all, year, 1)
    save_data_name(data_all, year, 0)

end1 = time.time()
print("耗时", end1-start1, "秒")
import jieba
import jieba.analyse

text = """
前言：
闲来无事，比赛也比完了，最近摸摸鱼，搞点之前一直想搞但又没时间搞的，这个当代艺术驱动器还是很有意思的，源工程是使用STC芯片，我换STM32了。
主要特色&可玩性：
1、使用STM32F103C8T6（C6T6也是通用的），去掉外围晶振电路，直接使用内部时钟。这一步停了挺久，我当时认为要设置参数那些，其实是不用的，STM32开始就是使用内部时钟，识别（这个词不一定准确）不到外部时钟会继续使用内部时钟。至于时序倒不用担心，我串口通信115200都没有问题，主打就是省电和尽可能减少外部器件。
2、优化布局，把大多数元器件隐藏到OLED屏幕下面，留出位置加图片和艺术字。
3、优化字库芯片算法（参考的开源文件里面关于字库芯片取字留了一手，导致取出的字是乱码）。务必注意购买的字库芯片的型号，GT20L16P1Y和S1Y的选址是完全不一样的，当时我就是被这里坑了。本工程使用的是GT20L16P1Y。
4、为了节省空间和美观，使用安卓线接烧录器烧录，USB公头抽四根线出来就行，挺方便的。使用过0.5排线座接烧录器和烧录探针烧录的方法，前者焊接连锡太痛苦，刮锡搞半天，后者调试的时候不稳，卒舍弃。
5、显示你喜欢的句子or单词、短语，中英文皆可，按键随机切换到下一个（目前是使用定时器取余伪随机）。
6、带两个LED灯。
7、带金属化过孔，可以当做挂件装饰。
后续优化：
1、可以插入简单的开机动画，64K FLASH容量够大。
2、目前在想办法省电，CR1220电池能撑个几小时，如果换可冲电池又太贵了，电路也要重新搞。突然想到，可以接个io口出来使用STM32推挽模式PWM（能有几十毫安电流，按照0.1C充电，5mA左右的充电电流）+ADC采样电阻电压（获得电流）约等于电池充电管理。貌似又没必要这么麻烦，直接接AMS1117的3.3V输出然后加个恒流二极管充电得了。
3、简版谷歌小恐龙游戏，自带一个按键（有硬件消抖），基本的跳起是没问题的。 电池根本撑不住哇。
4、显示图片（例如二维码（我使用的是草料二维码，经验证，32*32插个活码网址进去没问题，静态文本几句英文也是足够的）二维码能插入很多有意思的，比如说一段文字，或者重定位到小程序对喜欢的女生表白【滑稽】）。
5、后续可以换成TFT屏幕，更便宜，分辨率更高，还是彩色的，但耗电也是个问题。  这个也是别想了，电池根本撑不住
后续测试过程中的问题：
功耗实在是太厉害了，芯片如果不进入停止模式，电流去到5mA左右，加上字库芯片工作电流4mA，OLED屏幕4mA，CR1220电池压根撑不住，电压拉下来显示很容易出错。缓解方法是降低OLED的显示亮度和降低屏幕的时钟分频比（0xd5寄存器）以及芯片进入停止模式（OLED照常显示），按键中断重新进入工作模式，刷新完显示之后重新进入停止模式。
调试到后面工作电流是12mA左右（持续1s左右），待机电流是2mA左右（左右是因为OLED显示的字越多耗电越多，只能给出一个大致范围）。
"""

seg_list = jieba.analyse.extract_tags(text, topK=10, withWeight=True, allowPOS=('n'))
print(seg_list)
#[('芯片', 0.516556270197869), ('时钟', 0.38438069979221307), ('字库', 0.38371977293770493), ('电流', 0.3705347805363935), ('电池', 0.36978008038868854), ('屏幕', 0.28956634261508196), ('二维码', 0.2530268788352459), ('模式', 0.2471521190782787), ('按键', 0.23009957876336065), ('烧录器', 0.1959797951295082)]

seg_list = jieba.analyse.textrank(text, topK=10, withWeight=True, allowPOS=('n'))
print(seg_list)
#[('问题', 1.0), ('芯片', 0.9689175521290091), ('字库', 0.669291929954668), ('电流', 0.6560958075434182), ('烧录器', 0.5667999212063058), ('屏幕', 0.5546570601311374), ('游戏', 0.4640190069252803), ('二维码', 0.4578109380139069), ('按键', 0.45591698576626244), ('程序', 0.424226261031158)]
<div class="article-panel-title"><a class="article-panel-title-content" href="
/t/89831
" target="_blank"><span>易点燃的铝热剂</span></a>
<!-- <div class="article-panel-title"><a class="article-panel-title-content" href="
/t/8888888" target="_blank"><span>易点燃的啊米诺斯</span></a> -->

200字以内，仅用于支线交流，主线讨论请采用回复功能。

200字以内，仅用于支线交流，主线讨论请采用回复功能。

200字以内，仅用于支线交流，主线讨论请采用回复功能。

200字以内，仅用于支线交流，主线讨论请采用回复功能。

200字以内，仅用于支线交流，主线讨论请采用回复功能。

200字以内，仅用于支线交流，主线讨论请采用回复功能。

200字以内，仅用于支线交流，主线讨论请采用回复功能。

200字以内，仅用于支线交流，主线讨论请采用回复功能。

请选择违规类型：

空空如也