| 注册
home doc ppt pdf
请输入搜索内容

热门搜索

年终总结个人简历事迹材料租赁合同演讲稿项目管理职场社交

基于Python的电影票房信息数据的爬取及分析

平***苏

贡献于2021-11-20

字数:17776




基Python电影票房信息数爬取分析


Crawling and Analysis of Movie Box Office Information Data Based on Python


中文摘
现民群众物质生活水求已局限衣食住行精神文化更需求电影国越越受欢迎电影业发展越越迅猛充分利互联网技术发展掌握电影业态势信息进行挖掘处理提高数库利率文采文献分析法网络爬虫相关容发展现状进行简单介绍利网页抓取技术爬取电影票房网站相关数进行分析票房分析提供数支撑

关键词:Python 网络爬虫 电影票房


Abstract
Nowadays the people's requirements for material living standards are no longer limited to clothing food housing and transportation and there is more demand for spiritual culture Movies are becoming more and more Fashionable in China and the movie industry is growing rapidly In order to make full use of the development of Internet technology grasp the situation of the movie industry mine and process information and improve the utilization rate of the database This paper introduces the content and development of web crawler by literature analysis and use web page crawling technology to crawl and analyze the box office data related to movie websites which provides powerful data support for box office analysis
Keywords Python web crawler movie box office
目录
摘 1
Abstract 1
绪 3
11研究背景 4
12研究现状 4
13研究方法 4
二系统开发工具相关技术 5
21 Python网络爬虫 5
22系统开发工具 5
221 pycharm工具 5
222 MySQL数库 5
223 Hbuilder X工具 6
23系统台技术 6
24 系统前端技术 6
三系统分析 8
31 系统功分析 8
32 系统功性需求分析 10
321 系统户功性需求分析 10
322 系统理员功性需求分析 12
33 数获取 14
34 数分析 13
35 数展示 13
四系统设计 15
41文件结构图 15
411前端demo文件结构图 15
412端爬虫系统文件结构图 15
42前端功模块 16
43登录注册模块设计 16
44数库表设计 17
45数展示模块设计 18
五系统实现 20
51解决网站反爬机制 20
52 实现网络爬虫 23
521找出url变化规获取链接 26
522解析获取网页数 26
523数存储数库 27
53 登录注册模块实现 28
54 数展示模块实现 28
六 票房网站信息数爬取结果分析 32
612019年票房榜单Top20例分析 32
62结果分析 32
七结建议 36
71结果分析 36
72足点 36
73未展 37
参考文献 38
致 谢 39






11研究背景
年网络Python语言强势发展背景数思维数分析方法逐渐运领域中成进行分析数传播规律效途径助力载关信息仅需花费时间消息非常少网络爬虫获取网页次序会拥量信息信息库里十分效率提取信息解决剖析数变成现实网络爬虫会持续提取网页数储存进通剖析筛选缓存完成数中创建指引储存体系里协助更方便查询搜索爬虫系统提取出藏匿众数信息十分效率搜索程度更运信息数库爬虫系统节约力阅读储存数信息时间协助研究员储存众信息更加便捷获取藏匿数知识
中国爬虫技探究然开始研发时期国外晚发展势头十分迅猛成果显著爬虫技术研究追溯2003年数探索题学界研讨会渐渐中国传播开国研究员开始慢慢涉足爬虫领域逐渐深入直2007年名研究员爬虫领域取新突破浙罗兵教授研究基古版互联网爬虫技精通剖析领域支撑领域分深入调研载容分解程完善基础越越学者爬虫领域取新突破已获取流动互联网信息提高爬虫领域效时减轻户进行载压力载工作更加高效便捷更新换代爬虫工具已成工作时信息查找信息整理数分析利器爬虫工具发展仅仅推动爬虫技术探究发展十分利专家学者研究反爬虫技术电影行业发展越越快越越深入电影行业断发光发热引起量企业国家统计部门广泛关注数新基建建设时加快电影行业发展目前关电影数采集挖掘技术方案够完善文基网络爬虫理开展电影票房相关数采集挖掘分析猫眼电影票房网站相爬取需数次项目核心文通python编写爬虫脚实现获取票房数方案找出猫眼电影网反爬机制根相关反爬机制进行破解爬取数图表形式进行分析介绍
12研究现状
网络爬虫消息探索数值整理进程中发挥着关键作世纪初已科学家爬虫开启探究模式现爬虫技已处成熟阶段网络爬虫动获取网络界面行载需东西基实现幅度数载模式更便利进行高效工作
国爬虫技发展关探究开启速度较慢续发展非常迅猛2003年该技正式发展国数探索学会越越常态化该区域中探究扩展2007年浙教授罗兵旧版网络爬虫基准增添分析模型该容分析越发完善年国学界专家学者积极探讨破障碍国流动性网络消息获力断提升爬虫体系效增强减弱工完成压迫感逐步实现高效率载务成众查找分解融合信息中缺手段

13研究方法
①著作解法
②撰写程序语言:Python语言HTML语言JS语言css语言
③信息库技:MySQL信息库技


二系统开发工具相关技术

章节表述该课题开发猫眼电影票房数爬取系统开发工具相关技术技术介绍

21 Python网络爬虫
Python语言种开源编程语言强功简洁易懂语法系统兼容性广学手成低优势受许开发者青睐Python具高效率简单实现面象编程优势数库直接方便进行操作处理规模较数分析具高效率网络爬虫简言进行网页爬取模拟普通户浏览网页实际爬取数程综合说python网络爬虫利python程序语言编写爬虫程序者脚基python网络爬虫程序开发分三步骤:首先做充分调研确立爬虫象然深入调查该网站反爬虫机制然编写爬虫程序开展爬虫工作获取数获取数清洗滤pngexcelmp4等文件类型者保存着数库等方式保存爬取数常见网络爬虫两种分广度优先爬虫聚焦爬虫中广度优先爬虫适般网络搜索引擎网络爬虫象类似百度谷歌搜狗搜索类搜索引擎采网络爬虫广度优先爬虫技术聚焦爬虫适垂直搜索引擎网络爬虫象类似需搜索某领域容课题采类型聚焦爬虫技术
综知想者身意见获取目网络界面容满足身求佳办法便身需编写爬虫次序探究驻足猫眼电影网页体系分解爬虫进程中会碰种难题Python语言基准撰写猫眼电影网电影信息数获互联网爬虫程序

22系统开发工具
221pycharm工具
PyCharm款高效简洁Python开发工具代码分析力强户代码程中快速补全pycharm建议代码带项编辑器功十分强
222 MySQL数库
MySQL数库款强数库体积占学成低系统兼容性十分优秀方便易懂
223 Hbuilder X工具
Hbuilder款HTML编辑器时结合IDE外观该工具界面清爽性敏捷起轻巧 
23系统台技术
1 flaskweb框架技术
Flask基pythonweb框架
2requests库
requests库基 urllib系统里requests库功请求目标网站种请求方法等方式
3 Beatifulsoup 库
BeautifulSoup种解析器助Python进行开发该解析器规标签进行整理进步建立分析树Beautifulsoup组件功相强功够检索前页容需选取部分输出时够动校格式
4 Numpy 库
Numpy 库数组运算系统中破解猫眼电影字体反爬里该库计算欧氏距离配字体
5 lxml库
lxml库款解析器解析网页容中发挥着缺角色
24系统前端技术
1layui框架技术
layui款前端UI框架高度模块化独特设计手学成降低中系统演示部分类似导航栏题选择等模块涉layui技术
2 jQuery技术
jQueryJavaScript框架接口短清晰插件丰富语法独特性者起十分方便该框架兼容绝数浏览器兼容性十分优秀
3 Echarts框架技术
4 ECharts 款前端视化框架者该框架搭建需图表Echarts提供许生动美观图表供者中系统演示部分类似折线图词云图柱状图等数图表ECharts技术


三 系统分析

31系统功分析
电影信息数爬取系统台理模块户模块两模块组成中户模块适象普通户功包括登录注册题设置中心视化展示信息推送功中登录注册功外功需户登录情况接着台理模块适象理者台理模块功:数爬取户理页面理数理理权限较具体功模块示意图31示
中理员功例图应图33户功例图应图32
图31 系统功模块示意图


















图32 户功例图
图33 理员功例图


32系统功性需求分析
节户功理员两模块分阐述功性需求做详细分析介绍通详细分析介绍进步明确系统功性需求接系统设计开发做布置工作
321 系统户功性需求分析

图34 户功需求概述图

图34猫眼电影票房信息数爬取系统户功需求概述图面图34列功进行详细讲解说明
(1) 户登录功
户登录功该系统基础功户进入该系统前提登录账号登录账号进入系统系统会开放功供户户未登录账号情况法进入该系统
(2) 户注册功
户注册功作户未拥账号状态进行注册获账号更功
(3) 页面基操作功
页面基操作功该系统基础功该功具四子功分页面刷新功页面全屏功页面题设置功信息推送容四子功进行详细讲解说明
页面刷新功:该功页面基础功子功系统页面进行刷新系统页面置初始状态
页面全屏功:该功页面基础功子功系统页面放全屏状态方便户更详细查页面
页面题设置功:该功页面基础功子功系统页面题颜色钮进行更改方便户根喜系统页面题进行DIY设置
信息推送功:该功页面基础功子功查预览户推送信息
(4) 数视化操作功
数视化操作功该系统重功该功具五子功分浏览电影票房变化功浏览电影数概括功浏览电影票房榜单功浏览电影演员劳模功浏览电影票房占功五子功进行详细讲解说明
浏览电影数概括功该功数视化操作功子功全部电影信息数进行概括基信息表格形式展示出方便户浏览查
浏览电影票房占功:该功数视化操作功子功电影类型票房占情况分柱状图玫瑰图形式展示出户选择年份月份查时期时电影类型票房占情况
浏览电影票房榜单功该功数视化操作功子功电影票房前电影名字词云图形式展示出户选择年份排行数量查时期时电影票房排行前电影名字票房越高电影名称字号会更方便户电影票房查目然
浏览电影票房变化功该功数视化操作功子功2015年2019年电影票房走势折线图形式展示出户选择电影类型查该电影类型票房走势情况
浏览电影演员劳模功该功数视化操作功子功电影演员参演次数情况词云图柱状图形式展示出户选择年份排行数量查时期时电影演员参演次数前演员名字参演次数越演员词云图里名字字号会更柱状图里会更明显
(5) 户信息修改功
户信息修改功该系统基础功该功具三子功分户更新基信息功户账号绑定功户修改密码功三子功进行详细讲解说明
户更新基信息功该功户信息修改功子功户该功更改邮箱昵称简介街道址联系电话信息
户账号绑定功该功户信息修改功子功户该功修改密保手机密保邮箱绑定QQ绑定微信
户修改密码功该功户信息修改功子功户该功修改账号密码
322 系统理员功性需求分析


图35理员功需求概述图

图35猫眼电影票房信息数爬取系统理员功需求概述图面图35列功进行详细讲解说明

(1) 修改户账号信息功
修改户账号信息功更改户账号密码理员根需求户账号者密码进行更改
(2) 电影数爬取功
电影数爬取功该功整套系统核心该功具两子模块分爬取猫眼电影信息数功破解猫眼电影网反爬机制功两子功进行详细讲解说明
爬取猫眼电影信息数功该功电影数爬取功子功理员猫眼电影网需信息数获取功
破解猫眼电影网反爬机制功该功电影数爬取功子功利该功破解猫眼电影网部分反爬机制类似数字乱码方面技术难题理员说十分
(3) 系统模块理功
系统模块理功该功整套系统实现视化关键该功具四子功面分阐述四子功容:
新增系统模块功该功系统模块理功子功理员该功新增需系统模块
删系统模块功该功系统模块理功子功理员该功删需系统模块
更改系统模块功该功系统模块理功子功理员该功更改需系统模块
查询系统模块功该功系统模块理功子功理员该功查询需系统模块
(4) 电影信息数理功
电影信息数理功该功具四子功分新增电影信息数功删电影信息数功更改电影信息数功查询电影信息数功
新增电影信息数功该功电影信息数理功子功理员该功新增电影信息数更新系统
删电影信息数功该功电影信息数理功子功理员该功删电影信息数清洗滤需信息数
更改电影信息数功该功电影信息数理功子功理员该功更改电影信息数纠正格式规范者错误电影信息数
查询电影信息数功该功电影信息数理功子功理员该功查询电影信息数查找需电影信息数



33 数获取
系统数分析里必少环数获取系统数分析基数展开数获取前明确什数需什需筛选确定数目标进获取数根次课题需获取信息通Python爬取筛选2015年2019年间评分前电影数例电影名评分票房映时间等容

34 数分析
确定获取数目标数进步做分析数系统通统计分析分析方式研究某时间段票房变化演员参演次数完备该系统

35 数展示
数展示原理数进行视化户方便清晰解该系统数变化系统数视化图表五种形式存分:表格词云图折线图柱状图玫瑰图分析结果中数概述结果表格形式显示票房占结果柱状图玫瑰图形式显示票房榜单结果词云图形式显示票房变化结果折线图形式显示演员劳模结果词云图柱状图形式显示

四 系统设计

系统详细设计阐述该系统实现较重功该章节利图文结合方式表述更加清晰更加方便读者解系统具体构造

41文件结构图
411前端demo文件结构图

图41前端demo文件结构图
1assets文件夹系统资源目录包括jscss图片赖库文件里面
2page文件夹页面目录模块页面需localhost运行起开
3indexhtml 根文件里面存放前端体代码采前端框架layui + jQuery+echarts

412端爬虫系统文件结构图

图42端爬虫系统文件结构图

关爬取网站信息5文件:
1 creat_dbpy文件功创建数库
2 demopy文件功调数前端实现前端数交互
3 fontpy文件功字体反爬破解
4 get_datapy文件功爬取猫眼电影网站数
5 font文件夹功字体配

42前端功模块
系统展示层页面相关解释:
consolehtml控制台页面展示
bangdanhtml:票房榜单页面分析时期里电影票房排行
bianhuahtml票房变化页面分析电影类型2015年2019年票房走势
datahtml数概括页面展示爬取电影数容
laomohtml演员劳模页面分析时期里演员参演次数排名
piaofanghtml票房占页面分析时期里电影类型票房
loginhtml:户登录注册页户登录注册
userinfohtml:户信息页面户修改信息
tplmessagehtml:信息通知面板页面信息通知
tplpasswordhtml:户密码修改页面户修改想密码
tplthemehtml:题修改页面户修改系统页面题标签钮等操作
indexhtml 首页展示操作相关视化界面
html页面采layui+jQuery搭建体框架中视化数图表采Echarts图表库数挖掘整合非常友

43登录注册
登录注册页面户进行登录注册方登录页面中户够输入账号密码进行登录户第次访问没账号点击注册钮进行账号注册

图43 登录流程图

44数库表设计
通利Python 抓取电影票房数容进行效清洗转换等操作保存接着做数表设计包括表中字段名称数类型数长度否键字段说明等表42示:
表42电影films表
字段名称
数类型
长度
否键
字段说明
name
varchar
255

电影名称
time
varchar
255

电影映时间
type1
varchar
255

电影类型
type2
varchar
255

电影类型
type3
varchar
255

电影类型
type4
varchar
255

电影类型
type5
varchar
255

电影类型
country
varchar
255

电影出品国家
length
varchar
255

电影长度
year
int
0

映时间(年份)
month
int
0

映时间(月份)
day
int
0

映时间(日期)
director
varchar
255

导演
actor1
varchar
255

演员
actor2
varchar
255

演员
actor3
varchar
255

演员
actor4
varchar
255

演员
score
varchar
255

电影分数
people
int
0

评分数
box_office
bigint
0

电影票房
type
varchar
255

电影类型总


该系统数库films表films表中储存爬虫程序猫眼电影网站爬电影数中字段包括`name` `time` `type1` `type2` `type3` `type4` `type5` `country` `length` `year` `month` `day` `director` `actor1` `actor2` `actor3` `actor4` `score` `people` `box_office` `typename字段表示电影名称time字段表示电影映时间type15表示电影类型country表示电影出品国家length表示电影长度yearmonthday表示映时间score表示分数actor表示演员director表示导演people表示评分数box_office表示票房type表示电影类型总
图44数库实体关系ER图作清晰展示出系该统中实体间关系

图44数库ER模型图

45数展示模块设计
系统功模块猫眼电影信息数通构建种样图表模型户展示爬取票房数直观方便时方便非专业员该系统理解该系统五模块猫眼电影网爬取回电影数进行分析分数概述票房占票房榜单票房变化演员劳模五模块作研究分析模块示意图45示:


图45数展示模块图

(1)票房占模块:
柱状图展现表达出猫眼评前电影中类型电影猫眼电影网票房高理解类型电影更受观众青睐玫瑰图展现表达出猫眼评前电影中类型电影占例
(2) 票房榜单模块:
词云图猫眼评前电影清单中票房突出电影名字放处理字号越更凸显部电影票房更高更受观众欢迎
(3)数概述模块
表格形式电影基信息展示出类似电影名字电影出品国际票房评分评分数等容电影基目然
(4)票房变化模块:
折线图展现表达出猫眼评前电影中类型电影2015年2019年段时间票房走势通选择电影类型直观该类型电影票房走势
(5) 演员劳模模块:
词云图猫眼评前电影清单中演员参演次数突出演员名字放处理字号越更凸显位演员参演次数更电影行业里更加投入柱状图展现较出猫眼评前电影中演员参演次数高低

五 系统实现

51解决网站反爬机制
爬取猫眼电影网站电影详情数首先解决网站反爬机制然获权限访问网站数否爬取工作法进行爬取数绕网站反爬机制通研究该网站发现三机制:
(1) 反爬机制:申请猫眼电影网服务器发送访问请求时该服务器会判断否户浏览器发请求中会判断识爬虫需绕该识需Python里添加头部信息文件headersheaders绕服务器判断识
图51添加headers请求头
(2) 反爬机制二:python进行爬虫时候猫眼电影网站会检测访问请求频繁时候服务器会阻止访问解决该困扰python里导入time方法通timesleep()降低访问请求频率模拟开页面查页面真实户操作避免猫眼电影网站阻止拒绝

图52 timesleep()函数
(3)反爬机制三:python进行爬虫时候动化采集数程果采集方式采集频率高者数量猫眼电影网反爬机制会监测正程序爬取数时候会出现滑动验证码滑动该验证码爬取务法继续进行破解滑动验证码反爬机制较挑战目前止笔者操作方式工手动滑动图片
图53猫眼电影滑动验证码
(4)反爬机制四:猫眼电影详情页谷歌浏览器开发员工具发现猫眼电影网会独特文字反爬机制致没法开发员工具里直接获取准确数字次刷新页面猫眼电影网页源代码里文字载链接会改变时候获取准确数字需找出字体规然做进步判断精准数字面动态字体反爬破解处理程:
网页分析
首先尝试猫眼电影详情页信息进行获取

图54开发工具检查猫眼电影详情页
通谷歌浏览器开发员工具发现猫眼电影网采文字反爬处理导致开发员工具里数框框谓乱码

图55查猫眼电影网页源码
谷歌浏览器查网页源码刷新页面发现图55三处编码会改变

图56获取猫眼电影网页源代码文字编码url

搜索关键字(stonefont)找图56里三 url 址址字体文件载( woff格式)
二处理字体
Font Creator工具 开载字体文件(maoyanwoff)

图57 maoyanwoff字体应编码

通图57数字编码输入Python里构成字典(面笔者载字体文件应编码)

图58载字体文件应编码
接着刷新页面获取载新字体文件然新字体文件保存 xml 文件


图59 woff文件转xml格式代码


接着开 xml 文件(图510)发现

图510 xml文件编码象

里 id 应数字准确前两编码处理时需掉该两编码




图511单字体轮廓描写坐标

图511字体轮廓描写坐标进行绘制需字体Font Creator工具开两字体文件Python开两字体文件xml数字分编码坐标进行会发现两字体间坐标没法应接工作里坐标法应字体象
三编码映射

图512 字体
Font Creator软件开两woff字体文件仔细图512会发现字体间存着明显差异字体较时难出样方两字体字形者轮廓否接成判定两字体相似关键坐标越接字形越相似然然欧氏距离算法成该问题解决关键接展示欧氏距离算法程图513欧式距离算法公式

图513 欧氏距离算法公式


图514 欧氏距离算法
四处理逻辑
1首先载字体文件(base)作文件接着通 Font Creator 工具找base字体编码然python手写unicode数字应字典Python fontTools 库提取 base 中编码列表字体坐标列表
2谷歌浏览器查网页网页源代码找新字体文件(new)载址载Python fontTools 库提取字体文件(new)编码列表字体坐标列表
3采欧式距离算法字体文件(new)编码字体文件(base)编码进行计算算出中欧氏距离编码
4手写编码字典算出欧氏距离编码找想字体
四字体处理效果展示
字体处理效果图515

图515 字体处理效果

52实现网络爬虫
521找出url变化规获取url链接
反爬虫机制处理完接需猫眼服务器返回数进行获取解析数通想文件类型保存开浏览器开发者工具猫眼电影网request请求GET爬取GET请求方式网页通常说POST请求方式方便
首先爬取电影网页数时需获取电影详情页链接翻阅猫眼电影网url记录观察规
url 'httpsmaoyancomfilmsshowType3&sortId3&yearId' + str(k+14) + '&offset' + str(i)
通观察出该url规会发现循环传递参数ki次k+14i传递URL中断更新访问链接时采tryexcept异常处理语句先尝试访问该链接判断状态码(Status_Code)否200判断该请求否爬取(图516)
图516尝试访问该url

522解析获取网页数
采BeautifulSoup库解析电影网页数前确保BeautifulSoup库安装状态输入相关代码检验否安装通该库提取电影相关数类似电影名评分数图517解析网页数源码图518中网页源代码
图517解析猫眼电影网页数

图518猫眼电影网页部分源码

523数存储数库
图520显示猫眼电影网页爬取数保存文件者数库里系统数结果写入MySQL数库中(图519)期需编辑数Navicat Premium 12工具修改


图519 信息写入MySQL数库

图520 Navicat Premium 12效果图

53 登录注册模块实现
该模块户进入该视化系统时进行登录者注册方户进入系统时会提醒户进行登录者注册操作户登录框输入账号密码进行登录



图521 登录注册图

54 数展示模块实现
(1)数概况模块
数概况通表格形式展示详细票房信息户够进行翻页查票房数跳转具体某页面(图522)

图522数概括模块图
(2)票房占模块
票房占模块采柱状图玫瑰图形式户通选择年份月份该时期里电影类型间总票房中占例够直观展示电影类型票房间差异(图523)

图523票房占模块图

(3)票房榜单模块
票房榜单采词云统计方式展示电影票房高低户通选择年份前数量够清晰时期里突出前电影具定新颖性容易吸引户眼球(图524)

图524票房榜单模块图
(4)票房变化模块
票房变化模块采折线图形式户够选择电影类型清晰展示该类型电影2015年2019年间票房涨落信息方便户电影历史票房数进行研究(图525)

图525票房变化模块图

(6)演员劳模模块
演员劳模模块采词云图柱状图形式户通选择年份月份清晰时期里演员热度情况参演次数(图526)
图526演员劳模模块图

六 票房网站信息数爬取结果分析

系列爬虫工作效数存储数库清洗加工视化直观展示出数价值意义

61 2019年票房榜单Top20例分析
构建2019年票房榜单Top20词云图生成图图61示:

图61 2019年票房榜单Top20词云图

62 结果分析
图612019年票房榜单Top20词云图例票房榜首吒魔皇降世图61中十分突出明显该影片映短短时间突破动漫电影票房记录吒魔皇降世成功功该影片创作团队努力导演该部影片亲力亲甚省钱学担动画动作指导参制作部影片数高达1600突破目前国产动画制作数记录国产动漫电影新里程碑时部电影传达价值观念深深引起广观众鸣努力众找光辉谓句命天
面2015年2019年间电影票房例实现视化



图62电影类型票房占总电影票房玫瑰图

图62玫瑰图通统计2015年2019年里评分排行前电影列表中部电影类型票房占全部电影票房百分通玫瑰图62 票房排行前三分:动作险喜剧见观众动作片喜爱程度十分高更偏视觉带享受

图63 总票房排名前20词云图
图63词云图通统计2015年2019年里评分排行前电影清单中总票房里排名前20部电影做视觉突出图中清晰战狼2部电影票房高战狼2部电影成功方面素结果起决定作电影质量电影特效处理剧情握输莱坞片时该部电影军旅题材符合爱国旋律映时机恰逢建军90周年观众民族文化认感该部电影极鸣


图64 2015年2019年总票房走势折线图

图64折线图通统计2015年2019年里评分排行前电影清单中电影总票房段时期里走势图中清晰2018年总票房达顶峰2019年出现滑趋势分析2019年出现滑原三:1许热门电影2019年6月份暑期阶段宣布撤档原期影片映许观众没法影院进行观影院票房跌落十分明显2全国银幕数量增速放缓3热门头部电影撤档导致影院观影数幅度降加票房升许观众止步


图65 演员劳模词云图
图65词云图通统计2015年2019年里评分排行前电影清单中演员参演次数总演员参演次数里出现频率高演员劳模图中清晰道恩·强森位演员年参演次数高笔者认国外电影差演员努力程度年参演次数高道恩·强森参演次数高年录制影视没五部保证影片质量时高产见投入精力时间分配合理部作品坏演员作品投入程度离开演员付出起易作品剧样观众带更作品
七 总结未展

71总结
电影发展越越迅速块红海市场中分杯羹成较具挑战性问题文基python爬虫制作爬取电影票房网站爬虫程序成功爬取电影票房数保存数库中进行分析通种操作电影票房更加透明清晰文基Python语言电影票房网站进行信息数爬取分析通利 Python 抓取电影票房数容数MYSQL 数库提取出进行效清洗MySQLpandas库等方式进行操作web前端网页数柱状图玫瑰图折线图词云图等方式展示众眼前数展示结果某时间段电影票房数进行分析进解众专注热点趋势进分析热点电影基情况
该系统利Python丰富标准库快速开发特长错优点:(1)该爬取系统Python程序较陌生者熟悉说容易手需点击运行爬取程序里get_datapy文件爬取系统会动爬取数完成复杂爬取工作(2)采相似度距离算法方式破解猫眼电影网字体反爬亮点方法新颖(3)Python程序里导入time方法通10秒休眠时间程度降低访问请求页面频率服务器误操作避免猫眼电影网站阻止拒绝(4)爬虫程序里添加头部信息headers文件伪装web服务器辨浏览器行方便续爬取工作正常进行
72 足点
该系统笔者点足(1)该设计缺陷没线程没破解滑动验证码反爬机制导致爬取效率高适海量数爬取需进步完善(2)2020年疫情影响政府基娱乐场营活动暂停时包括电影院原计划春节档春节档映影片公司说意味着影片需全部断档停播影片公司行业言次巨击2020年初映电影寥寥次课题里2020年电影票房没法统计位(3)该系统户功模块部分没完全实现(4)整套系统功性够丰富
该系统现阶段改进空间例爬取系统爬取效率系统性架构进步优化完善外前疫情影响许新电影票房数爬取
希机会进步优化系统完善系统前台综合力该系统价值更加明显

72未展
关2020年电影行业三困境困扰着中国电影产业链难支撑困境疫情存传风险关系政府明确求线电影院纷纷停电影院电影说必少放映载体观众说更感身心愉悦娱乐空间影院关闭意味着没两方面资金入口难维持困境二原计划2020年映电影疫情关系没法映现数拍摄电影处堆压状态新电影排片安排更许影视公司说漫长等困境三投资方逐渐撤离电影行业投资剧组资金没法位拍摄方面技术物资力资源需求难维持致拍摄数量寥寥
中份报纸提项网络投票关网友影院观电影法投票结果显示绝数网友线观电影消费需求原次新冠状病毒影响家树立强卫生安全防控意识群聚类娱乐活动少少产生抵触心理更网友表示宁愿家里观电影愿意风险心翼翼影院体验
笔者认电影院线行业规许破计划院线发行影片逐渐转线发行传统谓窗口期会缩短流媒体台会量参票房收入源线院线会造成致命击终会电影线线格局带新变化
2020年电影行业艰难笔者相信坎跨疫情期间见证太感动瞬间中国民团结心定会战胜疫情电影行业样会迎春天
参考文献

[1]方芳基Scrapy框架京东网站笔记电脑评数爬取分析[J]电脑知识技术202016(06)79
[2]李玉香王孟玉涂宇晰基python网络爬虫技术研究[J]信息技术信息化2019(12)143145
[3]李福荣贾志刚基Python校园贴吧数爬虫技术研究[J]技术市场201926(11)3435
[4]成文莹李秀敏基Python电影数爬取数视化分析研究[J]电脑知识技术201915(31)810+12
[5]殷丽凤张浩然基Python网招聘信息爬取分析[J]电子设计工程201927(20)2226
[6]艾沛钰闫丽基python互联网数爬取解析研究实践[J]信息电脑(理版)201931(17)129130
[7]王建黄宁香基Python微信公众号数挖掘分析[J]电子世界2019(11)1718+21
[8]苗玥刘晓勇金佳妮李心基Python医学数爬取分析处理[J]信息技术信息化2019(04)5658
[9]郭郑嘉慧苗学芹基Python聚焦型网络爬虫影评获取技术[J]时代金融2019(11)7172
[10]孟亚茹姚凯学安世博基Python网络关键字热度获取工具研究实现[J]电子技术软件工程2018(17)181182
[11]唐琳天宇基Python然语言数处理系统设计实现[J]电子技术软件工程2018(16)160162
[12]肖乐丛天伟严卫基pythonWeb数采集数分析[J]电脑知识技术201814(22)911
[13]刘熠 基pythonWeb数挖掘技术研究实现[D]长江学2018
[14]方子菱匡芳君基Python网易民谣歌词数分析[J]电脑电信2018(04)5356









文档香网(httpswwwxiangdangnet)户传

《香当网》用户分享的内容,不代表《香当网》观点或立场,请自行判断内容的真实性和可靠性!
该内容是文档的文本内容,更好的格式请下载文档

下载文档,方便阅读与编辑

文档的实际排版效果,会与网站的显示效果略有不同!!

需要 120 香币 [ 分享文档获得香币 ]

该文档为用户出售和定价!

购买文档

相关文档

Python网络爬虫及数据可视化

Python网络爬虫及数据可视化Python网络爬虫及数据可视化摘 要随着4G的全面普及,以及5G基站建设开展,带来互联网相关产业的高速发展,电子数据的爆发式增长。对于互联网公司来说,海量用户带来的巨量数据就是待挖掘的金矿,同时数据也是互联网公司的生命线。获取海量的数据如果通过人工一一进行获取,速度缓慢,耗费时间长,效率低下,对于此痛点,网络爬虫是最好的选择,通过

平***苏 3年前 上传730   0

基于Action的数据分析大数据平台

 基于Action的用户行为分析大数据平台Action-based user behavior analytics big data platform内容摘要电商平台作为当前最受欢迎,热度最高的平台,流量高,数据量大,数据种类多本文利用了逆向工程思维从现在热度高、流量高、数据量大的各个电商网站平台,对用户行为收集js脚本进行分析,并从多方面对脚本采集的数据进行判断和推测其具体内

平***苏 10个月前 上传249   0

基于python的人脸识别系统

随着科技的不断发展,人工智能在人类生活的应用越来越普及,作为当前最受关注的生物特征识别的方法,人脸识别在考勤、边检、安防、运输等领域有着巨大应用前景,是人工智能与计算机视觉领域的研究热点之一。

爱***享 3年前 上传2126   2

基于微博的信息热度评价与预测分析

微博已成为时下非常热门的社交媒体平台,是一个庞大的关于信息分享和话题交流的平台,在人们线上社交活动中发挥着不可替代的作用,由于网络信息鱼龙混杂,所以本文通过了解微博的热度机制进而研究

王***朝 4年前 上传1077   0

基于信息流的流程协调分析

基于信息流的流程协调分析 摘要:流程的描述和再设计是变化管理的主要内容。通常流程是用活动及其逻辑关系来定义的,流程变化相应地集中在活动关系的调整或管理活动依赖的协调机制的调整。针对协调理论存在的问题,基于组织的信息处理观点,从参与者及其协调的角度研究了流程的描述和变化,并指出两种方法的互补性。 基于信息流的流程协调分析(一) 赵卫东 关键词 协调理论;流程分析;信息流;协调

s***1 12年前 上传7391   0

基于Python的代替密码破译方法的实现

功能强大、易于使用的多媒体编辑软件在给人们的生活带来很多便利和乐趣的同时,也使得对数字图像和音视频进行恶意伪造篡改的情况时有发生。近年来,篡改过的数字图像已经从普通犯罪,慢慢向科研领域蔓延。本文通过对当前我国视频真实性鉴定工作的梳理和分析,主要采用文献分析法和归纳分析法,围绕从数字图像源辨识和数字视频篡改检测两个方向开展基于图像融合的视频研究工作,从而达到检验视频真实性的目的。

王***朝 3年前 上传904   0

基于python的爱车分享交流网站设计与开发

基于python的爱车分享交流网站设计与开发网站系统摘 要设计开发该爱车分享交流网站系统主要是应用于有关汽车领域的网上社交,为用户提供信息化、数字化的分享交流平台,满足用户在此网站上发出对自己爱车或其中一款汽车的独有见解的声音并使之转变为一篇车评文章,分享出去让更多人看到和进行评论交流。当今,汽车可以说已经成为我们生活中不可或缺的出行交通工具,这些年汽车行业的迅猛发展,现

平***苏 3年前 上传446   0

基于Python的识别图片中文字的工具设计与实现

 基于Python的识别图片中文字的工具设计与实现Design and Implementation of a Python Based Tool for Recognizing Characters in Pictures

平***苏 2年前 上传583   0

基于LabVIEW的数据采集系统设计

基于LabVIEW的数据采集系统设计--图像采集基于LabVIEW的数据采集系统设计 ——图像采集摘 要数字图像处理技术的应用越来越广泛,在国防建设、工农业生产、人们的日常生活中,都用到了数字图像处理技术。图像识别是数字图像处理技术的一个组成部分,在卫星遥感、航拍等领域的应用也比较广泛。本文主要介绍了在LabVIEW软件下,利用摄像头完成图像的采集和处理的虚拟仪器

平***苏 2年前 上传678   0

Python讲义

 Python高效强大:它有非常完善的基础代码库(标准库,开源库,自定义模块),有庞大的外围库来支持。在科学计算、人工智能、大数据、云计算等诸多领域有着丰富的应用。 Python易学易读:它被誉为最容易上手的编程语言,语法简单,高效灵活,学习的曲线平缓。 Python资源丰富:开发者社群强大,容易获取学

不***字 4年前 上传1341   0

分析数据的采集

二、专利分析 (一)分析数据的采集 此次分析的数据来源于国家知识产权局专利局的“中国专利文献数据库”,检索于2004年1月8-9日进行。因此本分析是基于该数据库中2004年1月7日前收录的已公开专利文献。限于发明专利的审查程序,从提出申请到公开需18个月时间,2002年和2003年的发明专利申请量还会有所变化。 为保证分析数据全面准确,检索从专利申请人入手,筛选出国内重要手机生产厂家提交的

t***2 11年前 上传6669   0

数据分析

表四: 数据分析部及KASP信息管理职数表 编制 部门 职 能 岗 位 工作描述 数据分析部(共7人) 1、建立公司数据信息管理平台 2、规划各部门数据分析报表 3、制定数据信息管理制度 4、全国客户管理 5、数据分析员工作技能培训 6、随时完成上级安排的其它工作 主任(1人)周辉 建立销售数据及市场信息管理平台, 建立数据管理权限及各项规章制度, 负责数

A***9 15年前 上传13011   0

《观点报告》基于信息技术支持的中学语文学情分析

《观点报告》基于信息技术支持的中学语文学情分析学情分析是教师应该具备的一项专业能力,主要表现为教师能在课堂教学中基于对具体学情的诊断而改进学生的学习。学情分析要分析学生的知识结构、技能水平、学习风格、需求程度等,精准确定教学目标,为教学重难点的突破、教学策略的选择和教学活动的设计提供依据,它是教学的起点。以一节课为分析单位,学情分析应指向课前、课中、课后三个环节。课前,需要诊断学生与教学目标

蓝郎梦 10个月前 上传174   0

基于不对称信息博弈的4R分析—营销方案

 基于不对称信息博弈的4R分析—营销方案   摘 要 现代市场是个信息不对称市场,企业如何在不对称信息市场下营销是一个值得深入研究的课题。通过对不对称信息博弈的概述,指出企业和顾客、企业和企业、企业和政府三组不对称信息博弈的表现,指出4R是一种有效降低信息不对称程度的营销思想和策略,针对不对称信息博弈分别对关联、关系、反应和回报作了具体的分析和探讨。   关键词 不对称信息博弈

j***o 9年前 上传445   0

基于《大数据时代》读后对医疗健康数据的思考

基于《大数据时代》读后对医疗健康数据的思考 -                                                           --------** 这本书解释了我们正处于大规模生产、分享和应用数据的时代,告诉我们如何科学的应用大数据,开启新的思维模式,新的生活方式与新的工作形态,以应对正在发生着的利益与风险。 一、本书主要告诉我们以下几个方面的内容:

年***天 7年前 上传2889   0

社会管理综合信息平台数据分析报告

**县社会管理综合信息平台2013年12月份数据分析报告  一、信息收集办理情况 12月份应报信息3255条,实报信息1396条,报送率42.89%。比上月下降20.5%。其中,平安信息1303条,占实发信息的93.33%;比上月下降0.01%;有事信息71条,占实发信息的5.08%;比上月上升5.05%;其他信息32条。 按信息研判分类:刑事案件4条,比上月减少7条;治安案件2条,比上

坚***蜜 10年前 上传9431   0

基于MYSQL的图书管理系统数据库设计

题目:基于MYSQL图书管理系统数据库设计 目录1.题目概述 32.需求分析 32.1功能需求 32.2数据需求 42.3 数据安全与约束 42.4 数据流图 53.概要设计 63.1 实体及联系 63.2 ER图 64.逻辑结构设计 94.1 数据库模型 94.2 数据库模型函数依赖集 105.程序设计 125.1图

文***品 3年前 上传742   0

《信息获取的一般过程》教学设计

在信息技术飞速发展的现代社会,信息素养已经成为人们必须具备的基本素质之一,信息技术也已经成为现代人们在社会生存与发展的一个基本条件与手段。人们利用信息技术获取信息,表达观点,与他人交流思想与合作。

i***e 4年前 上传1233   0

《大数据的分析》论文

     计算机系统结构(论文)题目   大数据的分析   院系 信息工程系 专业 计算机科学与技术   年级 班级 姓名 学号 指导教师:

花***0 2年前 上传573   0

基于移动数据的大湾区城市经济联系强度分析设计与实现

在现代,沿海城市的经济水平大部分都胜过内陆城市,所以为了促进经济文化的发展会将这一个或者多个海湾、港口和附近岛屿组成的一个区域作为一个整体,这种整体就叫大湾区。 如果将眼观放向全世界,那么这些最发达,或者最具竞争力的城市群一般都聚集在大湾区。

爱***享 3年前 上传640   0

对信息基础数据信息记录检查

  关于对信息中心第二版信息管理系统运行数据痕迹被覆盖的通报 信息中心: 信息系统管理应严格按照国家和省有关信息系统建设的标准规范业务系统和数据库建设,制定明确的信息系统管理制度,加强对信息系统的安全性、精确性、完整性、有效性的控制,规范管理,减少和消除人为因素,确保操作严密有效,信息真实完整,保障数据安全。 经核实存在以下问题:发现信息中心第二版信息管理系统更改后没有数据痕迹记录,如再

s***y 9年前 上传7212   0

基于Web的学生信息管理系统

在现如今这个网络技术高度普及和信息全球化的年代,信息化的程度和互联网技术在国际竞争中充当着重要的角色,华为5G的实例告诉我们,谁先掌握技术谁就有话语权。

平***苏 3年前 上传741   0

基于java的学生信息管理系统

科技带动计算机行业不断地发展,计算机行业的发展也给每个行业带来了巨大的收益,使其工作效率得到提高,同时方便了人们的生活。本系统使用SSM框架,主要采用自顶向下的相关研究的方法。

爱***享 3年前 上传794   0

基于增量式爬虫的搜索引擎系统的设计

随着社会的不断发展,信息增长的也越来越快,大量的数据涌现在我们面前,对于这些数据,我们对信息的查找和提取也会更加困难。如何更快速、更精准的找到我们所需要的信息,获取到有用的信息成为了很重要的一个技术。

爱***享 3年前 上传488   0

数据库信息服务合同

合同编号:__________数据库信息服务合同甲方:____________________乙方:____________________ 签订日期:____年____月____日数据库信息服务合同甲方:___乙方:___ 乙方是《___》的总服务机构。就甲方以“《___》检索阅读卡(机构卡)”(简称___机构卡)方式使用乙方《___

k***d 4年前 上传1086   0