找回密码
 立即注册

扫一扫,访问微社区

QQ登录

只需一步,快速开始

查看: 1892|回复: 2

[求助] 网路爬虫后如何用python建立阶层词汇库

0

主题

11

帖子

11

积分

贫民

积分
11
iam4111 发表于 2019-7-18 01:14:03 | 显示全部楼层 |阅读模式
本帖最后由 iam4111 于 2019-7-18 18:11 编辑

小弟目前一項作业是想让使用者查询申请的专利是否已有(只做手机相关专利),目前做到可以用网路爬虫从美国专利局载下分类号并且找出常出现的词汇来当作往后检所的比对,现在可以列出每个阶层中常出现的词汇了,但必须将这些词汇按照分类号阶层式的做成一个词汇库
但小弟实在想不到该怎么做出阶层式的词汇库,恳请前辈指导。

这是阶层规则希望前一张图分析出来的词汇能够照这样阶层分类好建立词汇库 ... ... ...

这是阶层规则希望前一张图分析出来的词汇能够照这样阶层分类好建立词汇库 ... ... ...

红线是他的分类号码

红线是他的分类号码
回复

使用道具 举报

0

主题

956

帖子

956

积分

圣骑士

积分
956
sheeboard 发表于 2019-7-18 09:51:12 | 显示全部楼层
有更详细点的测试数据和要求吗,发上来。我试试看。
回复 支持 反对

使用道具 举报

0

主题

11

帖子

11

积分

贫民

积分
11
iam4111  楼主| 发表于 2019-7-18 18:07:32 | 显示全部楼层
sheeboard 发表于 2019-7-18 09:51
有更详细点的测试数据和要求吗,发上来。我试试看。

这个是将美国专利局的资料爬虫下来储存成excel
import requests
from bs4 import BeautifulSoup
import csv

patent_ary = []
with open('CPC.csv', newline='') as csvFile:
    rows = csv.reader(csvFile) # 1.直接读取:读取 CSV 档案内容
  # 回圈输出 每一列
    for row in rows:
        print(row[0])
        url = 'http://www.patbase.com/stats/class.php?cpc='+ row[0]    #目标网站
        resp**e = requests.get(url) #取得网站的url
        soup = BeautifulSoup(resp**e.text, 'html.parser') #把html.parser格式的东西储存在resp**e档案(text)里
        CPC = soup.find('table').getText() #筛选撷取
        print(CPC)
        dic = {}
        dic['cpc']=row[0]
        dic['content']=CPC
        patent_ary.append(dic)

import pandas
pdcol_name=['cpc','content']
pd=pandas.DataFrame(patent_ary,index=None,columns=pdcol_name)
pd.to_excel('search_results1.xlsx')

再做断词分辞
from collecti** import Counter
c = Counter(CPC.split())
c.keys()
import nltk
nltk.download('stopwords')
from nltk.corpus import stopwords
stopwords.words('english')
en_stops = set(stopwords.words('english'))
ps = ['.',',',':',';','?','!',' '] #标点符号表
with open(r'C:\Users\bp6ru\Desktop\word\claim2.txt') as f:
    for i in c:
        if i not in ps:
            if i not in en_stops:
                print(i)

最後輸出結果為
G:PHYSICS
G01:
INSTRUMENTS;
MEASURING;
TESTING
G06:
COMPUTING;
CALCULATING;
COUNTING
G06T:
IMAGE
DATA
PROCESSING
OR
GENERATION,
IN
GENERAL
G06T7/00:
Image
analysis
G06T7/50:
Depth
shape
recovery
G06T7/521:
laser
ranging,
e.g.
using
interferometry;
projection
structured
light

希望能将最后的输出以阶层方式储存成excel档,例如以下
G:PHYSICS
G01: INSTRUMENTS; MEASURING; TESTING
G06: COMPUTING; CALCULATING; COUNTING
  G06T: IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
   G06T7/00: Image analysis
   G06T7/50: . Depth or shape recovery
   G06T7/521: . . from laser ranging, e.g. using interferometry; from the projection of structured light
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

快速回复 返回顶部 返回列表