商务服务
[大数据技术] 淘宝双11数据分析与预测实验
2024-11-19 03:04

1.1 实验数据集

[大数据技术] 淘宝双11数据分析与预测实验 通过上面的命令,就进入到了data_format.zip文件所在的目录,并且可以看到有个data_format.zip文件。

[大数据技术] 淘宝双11数据分析与预测实验

 

[大数据技术] 淘宝双11数据分析与预测实验

 

[大数据技术] 淘宝双11数据分析与预测实验

1.2 数据集的预处理

(1)删除文件的第一行记录,即字段名称 user_log.csv的第一行都是字段名称,我们在文件中的数据导入数据仓库Hive中时,不需要第一行字段名称,因此在做数据预处理时,删除第一行

 

[大数据技术] 淘宝双11数据分析与预测实验 (2)获取数据集中双11的前100000条数据 由于数据集中交易数据太大,这里只截取数据集中在双11的前10000条交易数据作为小数据集small_user_log.csv 下面我们建立一个脚本文件完成上面截取任务,请把这个脚本文件放在dataset目录下和数据集user_log.csv:

 

上面使用vim编辑器新建了一个predeal.sh脚本文件,请在这个脚本文件中加入下面代码

 

[大数据技术] 淘宝双11数据分析与预测实验 下面就可以执行predeal.sh脚本文件,截取数据集中在双11的前10000条交易数据作为小数据集small_user_log.csv,命令如下

 

[大数据技术] 淘宝双11数据分析与预测实验 (3)导入数据库 下面要把small_user_log.csv中的数据最终导入到数据仓库Hive中。为了完成这个操作,我们会首先把这个文件上传到分布式文件系统HDFS中,然后,在Hive中创建两个个外部表,完成数据的导入。

[大数据技术] 淘宝双11数据分析与预测实验 现在,我们要把Linux本地文件系统中的user_log.csv上传到分布式文件系统HDFS中,存放在HDFS中的“/dbtaobao/dataset”目录下。 首先,请执行下面命令,在HDFS的根目录下面创建一个新的目录dbtaobao,并在这个目录下创建一个子目录dataset,如下[大数据技术] 淘宝双11数据分析与预测实验 因为需要借助于MySQL保存Hive的元数据,所以,请首先启动MySQL数据库,之后在hive中创建数据库。 [大数据技术] 淘宝双11数据分析与预测实验 这里我们要分别在数据库dbtaobao中创建一个外部表user_log,它包含字段(user_id,item_id,cat_id,merchant_id,brand_id,month,day,action,age_range,gender,province),请在hive命令提示符下输入如下命令[大数据技术] 淘宝双11数据分析与预测实验

2.1 操作Hive

[大数据技术] 淘宝双11数据分析与预测实验 [大数据技术] 淘宝双11数据分析与预测实验

2.2 简单查询分析

[大数据技术] 淘宝双11数据分析与预测实验 [大数据技术] 淘宝双11数据分析与预测实验 [大数据技术] 淘宝双11数据分析与预测实验

2.3 查询条数统计分析

[大数据技术] 淘宝双11数据分析与预测实验 [大数据技术] 淘宝双11数据分析与预测实验 [大数据技术] 淘宝双11数据分析与预测实验

2.4 关键字条件查询分析

[大数据技术] 淘宝双11数据分析与预测实验 [大数据技术] 淘宝双11数据分析与预测实验

2.5 根据用户行为分析

[大数据技术] 淘宝双11数据分析与预测实验 [大数据技术] 淘宝双11数据分析与预测实验 [大数据技术] 淘宝双11数据分析与预测实验

2.6 用户实时查询分析

[大数据技术] 淘宝双11数据分析与预测实验

3.1 Hive预操作

(1)创建临时表inner_user_log和inner_user_info

 

(2)将user_log表中的数据插入到inner_user_log

 

执行下面命令查询上面的插入命令是否成功执行

 

[大数据技术] 淘宝双11数据分析与预测实验

3.2 使用Sqoop将数据从Hive导入MySQL

(1)登录MySQL,创建数据库,查看数据库的编码

 

[大数据技术] 淘宝双11数据分析与预测实验 (2)创建表

 

[大数据技术] 淘宝双11数据分析与预测实验 (3)导入数据

 

(4)查看数据

    以上就是本篇文章【[大数据技术] 淘宝双11数据分析与预测实验】的全部内容了,欢迎阅览 ! 文章地址:http://lanlanwork.gawce.com/news/9810.html 
     资讯      企业新闻      行情      企业黄页      同类资讯      首页      网站地图      返回首页 阁恬下移动站 http://lanlanwork.gawce.com/mobile/ , 查看更多   
最新新闻
百度识图怎么用(百度识图功能好用吗)(百度产品大全)
识图搜索提供两种图片输入方式,用户可以上传本地图片或者输入网络图片的URL地址,将图片传给搜索引擎之后,百度识图将会自动识
更多资讯行业资讯
从合资到自主,从数量到质量,中国汽车产业的整体水平和中国人的生活水平同步提高的同时,也发生着深刻的变化。乘着产业发展的东
忻州关键词seo优化排名
百度关键词搜索排名系统优化的方法:中,选择错误的的关键词、合理使用标题和描述、内部链接优化系统、外部链接360优化、关键词密
springboot整合百度AI的图片和文字违规识别
1.用户注册登录:用户进行注册,登录。2.商品浏览:以列表方式显示商品信息或者可以查看商品。3.商品搜索:用户可以通过关键字或
谁还在用百度搜索?
文/周音微软必应超越百度,成为中国桌面搜索第一大引擎。曾经的百度搜索,跌落王座。这是一家美国数据统计机构发布的中国桌面搜
锚定「AI向实」,百度研究院发布2023年十大科技趋势
机器之心报道机器之心编辑部过去四年,智能技术构筑起了科技变革的主线,AI 向实,成为当今时代科技发展的主干道。—— 百度首席
百度新闻史诗级大调整
作者|奇袭来源|品牌公关实验室继2017年3月宣布取消新闻源库后,百度新闻在2023年年中迎来了历史上最大规模的新闻收录展示调整
盘点:14款免费的关键词研究工具
选好关键词对于卖家来说至关重要,本文盘点了一些免费的关键词工具。以下是14种不同的免费关键词研究工具的清单,可以帮助卖家找
韩文翻译器拍照扫一扫
微信使用更方便:1、微信搜索小程序“ 拍照翻译精灵 ”不仅仅是翻译,是一个功能多样的小程序 :拍照翻译、拍照提取文字、拍照识
手机百度 10.3.8 For iphone
华军软件园频道,为您提供手机百度iPhone版下载、手机百度苹果版下载。手机百度iPhone版来自全世界最大的中文搜索引擎百度的iPho