商务服务
关键词词云怎么做_制作CVPR 热词云(并爬取pdf地址 名称)
2024-11-03 09:14

#!/usr/bin/python #这里是解释器位置和python版本#-*- coding: utf-8 -*- #编码格式

关键词词云怎么做_制作CVPR 热词云(并爬取pdf地址 名称)

"""@author: CuiXingYu

@contact: a15931829662@163.com

@software: PyCharm

@file: CVPR.py

@time: 2020/4/17 19:36"""

importreimportrequestsimportpymysqldefget_context(url):"""params:

url: link

return:

web_context"""web_context=requests.get(url)returnweb_context.textdefget_conn():"""建立数据库连接

:return:"""conn=pymysql.connect(#本机IP地址

host='127.0.0.1',#数据库用户名

user='root',#密码

password='101032',#需要操作的数据库名称

db='db_database07',

)#cursor对象 可以进行sql语句执行 和 获得返回值

cursor=conn.cursor()returnconn,cursordefclose_conn(conn,cursor):"""关闭连接

:param conn: 连接对象

:param cursor: cursor对象

ifcursor:

cursor.close()ifconn:

conn.close()defget_name():"""获取论文的名字 url 地址

:return:"""conn,cursor=get_conn()

url= 'http://openaccess.thecvf.com//CVPR2019.py'web_context=get_context(url)#find paper files

'''(?<=href="): 寻找开头,匹配此句之后的内容

.+: 匹配多个字符(除了换行符)

?pdf: 匹配零次或一次pdf

(?=">pdf): 以">pdf" 结尾

|: 或'''info=[]#link pattern: href="***_CVPR_2019_paper.pdf">pdf

link_list = re.findall(r"(?<=href=").+?pdf(?=">pdf)|(?<=href=').+?pdf(?=">pdf)", web_context)#name pattern: ***

name_list = re.findall(r"(?<=2019_paper.html">).+(?=)", web_context)for one,two inzip(name_list,link_list):

info.append([one,two])#sql语句 对数据库进行操作

sql = "insert into paperinfo(name,url) values(%s,%s)"

try:#执行sql语句

cursor.executemany(sql,info)

conn.commit()except:

conn.rollback()

close_conn(conn, cursor)defsaveContent_list(hotword ,number):"""插入数据库

:param hotword: 单词

:param number: 数量

#打开数据库连接(ip/数据库用户名/登录密码/数据库名)

conn,cursor=get_conn()

sql="insert into hotword (hotword,number) values (%s,%s)"val=(hotword,number)

cursor.execute(sql,val)#使用 fetchone() 方法获取数据.

conn.commit()#关闭数据库连接(别忘了)

conn.close()defget_hotword():"""爬取热词并统计数目

:return:"""url= 'http://openaccess.thecvf.com//CVPR2019.py'web_context=get_context(url)

name_list= re.findall(r"(?<=2019_paper.html">).+(?=)", web_context)

text= " "

for word inname_list:

text= text +word

word=text.split()

word_dict={}for w inword:if w not inword_dict:

word_dict[w]= 1

else:

word_dict[w]= word_dict[w] + 1a= sorted(word_dict.items(), key=lambda item: item[1], reverse=True)#sql语句 对数据库进行操作

for x ina:try:

word=x[0]

num=x[1]

saveContent_list(word,num)except:print("失败")

    以上就是本篇文章【关键词词云怎么做_制作CVPR 热词云(并爬取pdf地址 名称)】的全部内容了,欢迎阅览 ! 文章地址:http://lanlanwork.gawce.com/news/9239.html 
     资讯      企业新闻      行情      企业黄页      同类资讯      首页      网站地图      返回首页 阁恬下移动站 http://lanlanwork.gawce.com/mobile/ , 查看更多   
最新新闻
健康消费加速向“新” 市场前景广阔
近年来,我国居民健康意识明显增强,健康消费潜力巨大,呈现出市场规模快速增长、业态模式不断创新、消费结构持续优化等特点。健
scratch编程少儿版电脑版 1.5.8官方版scratch手机版下载「scratch编程少儿版电脑版 1.5.8官方版」
scratch编程少儿版电脑版是一款专门针对广大青少年儿童推出的教育类编程软件。scratch编程少儿版电脑版采用Html5页面技术和JS语
【慎入女性手机「【慎入」
                ♛研青专属,他人使用请留言【半夜,空调开着,你躺在床上裹紧被子翻看着手机,时不时笑几声,突然一
从脚步声到“吱吱盒”,拟音师的孤独与热爱|影视
文|财新 邓舒方拟音棚内部分道具。图:受访者提供随着《哪吒之魔童闹海》热映,拟音师这一幕后职业也逐渐走进大众视野。曾参与
波杰抢戏詹库对决:28+8+8三分连创新高 末节决胜三分价值千金
北京时间4月4日,勇士以123-116击败湖人拿到四连胜。这场比赛波杰姆斯基抢戏了VS大小王之战,波杰上半场22分最高,全场比赛28分+
上市险企推动业务结构转型:分红险占比提升助力降低刚性负债成本
随着保险行业步入转型期,上市险企纷纷调整业务结构,大力推动分红险业务发展。根据最新数据,2025年以来,保险行业新备案的185
笔记本热点手机连不上一直正在连接-笔记本开热点手机连不上电脑连不上手机热点怎么回事「笔记本热点手机连不上一直正在连接-笔记本开热点手机连不上」
嗨,朋友们好!今天给各位分享的是关于笔记本开热点手机连不上的详细解答内容,本文将提供全面的知识点,希望能够帮到你!3、可
华为手机有电自动关机是怎么回事华为手机自动关机「华为手机有电自动关机是怎么回事」
山和水不是反义词。“山”的意思:1、地面形成的高耸的部分:土山。2、形状像山的:山墙(人字形房屋两侧的墙壁。亦称“房山”)
如何免费获取Windows10激活密钥?Win10统用激活码推荐 附激活工具windows10手机版「如何免费获取Windows10激活密钥?Win10统用激活码推荐 附激活工具」
Windows10专业版/企业版激活密钥/神key分享!win10专业版和企业版都不是免费使用的,需要我们使用产品密钥来激活,如果没有激活
计算机硬盘内存不足,电脑提示磁盘空间不足怎么办手机磁盘空间不足怎么清理「计算机硬盘内存不足,电脑提示磁盘空间不足怎么办」
使用电脑偶尔会遇到“磁盘空间不足”的提示,导致我们无法继续安装或运行程序,那么电脑提示磁盘空间不足怎么办呢?