商务服务
关键词词云怎么做_制作CVPR 热词云(并爬取pdf地址 名称)
2024-11-03 09:14

#!/usr/bin/python #这里是解释器位置和python版本#-*- coding: utf-8 -*- #编码格式

关键词词云怎么做_制作CVPR 热词云(并爬取pdf地址 名称)

"""@author: CuiXingYu

@contact: a15931829662@163.com

@software: PyCharm

@file: CVPR.py

@time: 2020/4/17 19:36"""

importreimportrequestsimportpymysqldefget_context(url):"""params:

url: link

return:

web_context"""web_context=requests.get(url)returnweb_context.textdefget_conn():"""建立数据库连接

:return:"""conn=pymysql.connect(#本机IP地址

host='127.0.0.1',#数据库用户名

user='root',#密码

password='101032',#需要操作的数据库名称

db='db_database07',

)#cursor对象 可以进行sql语句执行 和 获得返回值

cursor=conn.cursor()returnconn,cursordefclose_conn(conn,cursor):"""关闭连接

:param conn: 连接对象

:param cursor: cursor对象

ifcursor:

cursor.close()ifconn:

conn.close()defget_name():"""获取论文的名字 url 地址

:return:"""conn,cursor=get_conn()

url= 'http://openaccess.thecvf.com//CVPR2019.py'web_context=get_context(url)#find paper files

'''(?<=href="): 寻找开头,匹配此句之后的内容

.+: 匹配多个字符(除了换行符)

?pdf: 匹配零次或一次pdf

(?=">pdf): 以">pdf" 结尾

|: 或'''info=[]#link pattern: href="***_CVPR_2019_paper.pdf">pdf

link_list = re.findall(r"(?<=href=").+?pdf(?=">pdf)|(?<=href=').+?pdf(?=">pdf)", web_context)#name pattern: ***

name_list = re.findall(r"(?<=2019_paper.html">).+(?=)", web_context)for one,two inzip(name_list,link_list):

info.append([one,two])#sql语句 对数据库进行操作

sql = "insert into paperinfo(name,url) values(%s,%s)"

try:#执行sql语句

cursor.executemany(sql,info)

conn.commit()except:

conn.rollback()

close_conn(conn, cursor)defsaveContent_list(hotword ,number):"""插入数据库

:param hotword: 单词

:param number: 数量

#打开数据库连接(ip/数据库用户名/登录密码/数据库名)

conn,cursor=get_conn()

sql="insert into hotword (hotword,number) values (%s,%s)"val=(hotword,number)

cursor.execute(sql,val)#使用 fetchone() 方法获取数据.

conn.commit()#关闭数据库连接(别忘了)

conn.close()defget_hotword():"""爬取热词并统计数目

:return:"""url= 'http://openaccess.thecvf.com//CVPR2019.py'web_context=get_context(url)

name_list= re.findall(r"(?<=2019_paper.html">).+(?=)", web_context)

text= " "

for word inname_list:

text= text +word

word=text.split()

word_dict={}for w inword:if w not inword_dict:

word_dict[w]= 1

else:

word_dict[w]= word_dict[w] + 1a= sorted(word_dict.items(), key=lambda item: item[1], reverse=True)#sql语句 对数据库进行操作

for x ina:try:

word=x[0]

num=x[1]

saveContent_list(word,num)except:print("失败")

    以上就是本篇文章【关键词词云怎么做_制作CVPR 热词云(并爬取pdf地址 名称)】的全部内容了,欢迎阅览 ! 文章地址:http://lanlanwork.gawce.com/news/9239.html 
     资讯      企业新闻      行情      企业黄页      同类资讯      首页      网站地图      返回首页 阁恬下移动站 http://lanlanwork.gawce.com/mobile/ , 查看更多   
最新新闻
广汽集团年营收1068亿:同比降17% 扣非后净亏43.5亿 曾庆洪刚退休
雷递网 雷建平 3月31日广州汽车集团股份有限公司(公司代码:601238,公司简称:广汽集团)日前发布截至2024年12月31日的财报。
UFS 3.0闪存有多重要?助力NEX 3 5G拿下安兔兔跑分榜第一名手机闪存「UFS 3.0闪存有多重要?助力NEX 3 5G拿下安兔兔跑分榜第一名」
怎样才算是一款合格的5G手机?很多人会说:要有顶级的硬件配置、5G芯片、8G及以上的超大运存、还要有大电池等等。这些方面自然是
圣安地列斯2.0汉化补丁手机版 v4.8.2圣安地列斯手机版「圣安地列斯2.0汉化补丁手机版 v4.8.2」
圣安地列斯2.0汉化补丁手机版是一款城市冒险手游,帮助用户可以更好的去进行体验,而且游戏中帮助玩家提供中文翻译,帮助玩家更
光电股份:3月31日融资买入943.15万元,融资融券余额2.06亿元
证券之星消息,3月31日,(600184)融资买入943.15万元,融资偿还556.92万元,融资净买入386.23万元,融资余额2.06亿元。融券方
分享| 日本的高球礼仪及注意事项手机买保险「分享| 日本的高球礼仪及注意事项」
日本人打高尔夫球有什么特点 前话 日本的球场都是沿用英国人的规矩,一切安排得井井有条,打球的人也非常绅士,而且,水平也普遍
中超-广州夺冠奖金累计近亿 欧冠巴萨5-0 米兰胜搜狐手机新闻「中超-广州夺冠奖金累计近亿 欧冠巴萨5-0 米兰胜」
卖地收入21年增长6732倍,震惊!只要目前的体制不变,地方政府是市场参与者,是投资家,是国企赢利的拥有者也是国企风险的最后承
小米之家(贵州贵阳观山湖区美的悦然广场专卖店)小米手机专卖店「小米之家(贵州贵阳观山湖区美的悦然广场专卖店)」
小米公司正式成立于2010年4月,是一家以智能手机、智能硬件和IoT平台为核心的消费电子及智能制造公司。创业仅7年时间,小米的年
昆虫显微成像手机DIY「昆虫显微成像」
本文为原创,最初发表于公众号:虫虫1号(编辑:Ruan Y)。请关注微信号“虫虫1号”获取更多内容 本文省流:购买2号镜头+镜头夹