大数据分析《流浪地球》

简介: 大数据分析《流浪地球》

阅读本文需要4分钟



《流浪地球》带有浓厚的中国哲学和印记,片中隐而不现但始终横贯的主题,可以归纳成“为有牺牲多壮志、敢叫日月换新天”的哲思,故事的缘起和结束都在于家庭和传承,具有浓重的中国“家国情怀”。看的我呀, 激情满满。


1数据分析


全部数据均来自豆瓣影评,主要是【‘口碑’,‘评论日期’,‘评论内容’】三方面数据。

分析目标URL:


https://movie.douban.com/subject/26266893/comments?start=10&limit=20&sort=new_score&status=P

start=20, limit=20, 根据多次测试, 参数start应该就是下一页

参数limit为每页的数据。所以只需要改变参数start就好。

2数据采集

需要的模块:

    import csv
    import time
    import random
    import requests
    from lxml import etree

    主要部分代码:

      def main():
          for i in range(10, 201, 10):
              url = baseurl.format(i)
              print("开始爬取%d页" % i)
              print('='*50)
              response = requests.get(url, headers=headers).text
              html = etree.HTML(response)
              items = html.xpath('//div[@class="comment-item"]')
              for item in items:
                  data = {}
                  score = ''.join(item.xpath('.//span[contains(@class, "rating")]/@title'))
                  data['口碑'] = score
                  date = ''.join(item.xpath('.//span[@class="comment-time "]//text()')[0]).strip()
                  data['评论日期'] = date
                  comment = item.xpath('.//span[@class="short"]/text()')[0]
                  data['评论内容'] = comment
                  time.sleep(random.randint(1, 2))
                  print(data)
                  data_list.append(data)
                  header = ['口碑', '评论日期', '评论内容']
                  with open('comment.csv', 'w', encoding='utf-8', newline='') as fb:
                      writer = csv.DictWriter(fb, header)
                      writer.writeheader()
                      writer.writerows(data_list)

      3数据分析

      数据经过清洗, 整理, 统计等步骤 。口碑【388】日期【400】评论【99872】


      需要的模块


      # 统计图
      from pyecharts.charts import Pie, Line
      from pyecharts import options as opts
      # 词云
      import jieba
      from matplotlib import pyplot as plt
      from wordcloud import WordCloud


      1 口碑扇形图:

         主要代码


      pie = Pie()
      pie.add('口碑', [list(z) for z in zip(koubei, values)])
      pie.set_global_opts(title_opts=opts.TitleOpts(title="口碑"),)
      pie.render(path='口碑.html')


      2 时间折线图:

         主要代码

        line = (Line()
                .add_xaxis(date)
                .add_yaxis('', values))
        line.render(path='评论日期.html')


        3 评论词云

           主要代码

          path = r'C:\Users\root\Desktop'
          font = r'C:\Windows\Fonts\simfang.ttf'
          f = open('评论.csv', 'r', encoding='utf-8').read()
          cut = jieba.cut(f)  # 分词
          string = ' '.join(cut)
          print(len(string))
          stopword = ['xa0']  # 设置停止词,也就是你不想显示的词,这里这个词是我前期处理没处理好,你可以删掉他看看他的作用
          wc = WordCloud(
              background_color='white',
              width=1000,
              height=800,
              font_path=font,
              stopwords=stopword
          )
          wc.generate_from_text(string)  # 绘制图片
          plt.imshow(wc)
          plt.axis('off')
          plt.figure()
          plt.show()  # 显示图片
          wc.to_file(path + r'\1234.png')  # 保存图片



          4总结


          《流浪地球》作为国产首部大型科幻, 观众对于它的口碑还是挺不错的堪称良心制作,票房火爆。

          大年初一就上映了, 但是本狗最近才看的,所以看了看豆瓣上的评论时间,哇, 看来大家那会都是很期待观看的,比我早好几倍呢。唉!!!

          再来看看大家的评论, ‘模仿’, ‘科幻’,‘故事’,‘国产‘, 等关键字,可以感受出来, 但是我却看到了 ‘战狼’ 关键字, 我猜是可能和吴京有关吧, 毕竟《战狼2》曾今那么火爆。

          获取源码 后台回复 【流浪地球】

          相关文章
          |
          25天前
          |
          数据可视化 搜索推荐 大数据
          基于python大数据的北京旅游可视化及分析系统
          本文深入探讨智慧旅游系统的背景、意义及研究现状,分析其在旅游业中的作用与发展潜力,介绍平台架构、技术创新、数据挖掘与服务优化等核心内容,并展示系统实现界面。
          |
          1月前
          |
          数据采集 人工智能 分布式计算
          ODPS在AI时代的发展战略与技术演进分析报告
          ODPS(现MaxCompute)历经十五年发展,从分布式计算平台演进为AI时代的数据基础设施,以超大规模处理、多模态融合与Data+AI协同为核心竞争力,支撑大模型训练与实时分析等前沿场景,助力企业实现数据驱动与智能化转型。
          231 4
          |
          1月前
          |
          JSON 大数据 API
          巧用苏宁易购 API,精准分析苏宁易购家电销售大数据
          在数据驱动的电商时代,精准分析销售数据能助力企业优化库存、提升营销效果。本文详解如何利用苏宁易购API获取家电销售数据,结合Python进行数据清洗与统计分析,实现销量预测与洞察提取,帮助企业降本增效。
          43 0
          |
          2月前
          |
          消息中间件 NoSQL 数据可视化
          数据说了算,可你得“听得快”——聊聊大数据里的实时分析
          数据说了算,可你得“听得快”——聊聊大数据里的实时分析
          90 2
          |
          6天前
          |
          存储 SQL 分布式计算
          终于!大数据分析不用再“又要快又要省钱”二选一了!Dataphin新功能太香了!
          Dataphin推出查询加速新功能,支持用StarRocks等引擎直连MaxCompute或Hadoop查原始数据,无需同步、秒级响应。数据只存一份,省成本、提效率,权限统一管理,打破“又要快又要省”的不可能三角,助力企业实现分析自由。
          93 49
          |
          3月前
          |
          数据采集 人工智能 算法
          数据没洗干净,分析全白干:聊聊大数据里的“洗澡水”工程
          数据没洗干净,分析全白干:聊聊大数据里的“洗澡水”工程
          107 1
          |
          11天前
          |
          数据采集 数据可视化 关系型数据库
          基于python大数据的电影数据可视化分析系统
          电影分析与可视化平台顺应电影产业数字化趋势,整合大数据处理、人工智能与Web技术,实现电影数据的采集、分析与可视化展示。平台支持票房、评分、观众行为等多维度分析,助力行业洞察与决策,同时提供互动界面,增强观众对电影文化的理解。技术上依托Python、MySQL、Flask、HTML等构建,融合数据采集与AI分析,提升电影行业的数据应用能力。
          |
          21天前
          |
          数据可视化 大数据 数据挖掘
          基于python大数据的招聘数据可视化分析系统
          本系统基于Python开发,整合多渠道招聘数据,利用数据分析与可视化技术,助力企业高效决策。核心功能包括数据采集、智能分析、可视化展示及权限管理,提升招聘效率与人才管理水平,推动人力资源管理数字化转型。
          |
          24天前
          |
          机器学习/深度学习 搜索推荐 算法
          基于python大数据的口红商品分析与推荐系统
          本研究基于Python大数据技术,构建口红商品分析与推荐系统,旨在解决口红市场产品同质化与消费者选择困难问题。通过分析颜色、质地、价格等多维度数据及用户行为,实现个性化推荐,提升购物体验与品牌营销效率,推动美妆行业数字化转型,具有重要现实意义与市场价值。
          |
          2月前
          |
          SQL 存储 机器学习/深度学习
          基于 Dify + Hologres + QWen3 进行企业级大数据的处理和分析
          在数字化时代,企业如何高效处理和分析海量数据成为提升竞争力的关键。本文介绍了基于 Dify 平台与 Hologres 数据仓库构建的企业级大数据处理与分析解决方案。Dify 作为开源大语言模型平台,助力快速开发生成式 AI 应用;Hologres 提供高性能实时数仓能力。两者结合,不仅提升了数据处理效率,还实现了智能化分析与灵活扩展,为企业提供精准决策支持,助力数字化转型。
          544 2
          基于 Dify + Hologres + QWen3 进行企业级大数据的处理和分析

          热门文章

          最新文章