Python必知词汇:文本

简介: 文本,是指书面语言的表现形式,从文学角度说,通常是具有完整、系统含义的一个句子或多个句子的组合。一个文本可以是一个句子、一个段落或者一个篇章。计算机中的文本分为纯文本和富文本。

文本,是指书面语言的表现形式,从文学角度说,通常是具有完整、系统含义的一个句子或多个句子的组合。一个文本可以是一个句子、一个段落或者一个篇章。计算机中的文本分为纯文本和富文本。

纯文本中只能保存单一的文本内容,无法保存内容无关的信息如字体、颜色、图片等。

纯文本在计算机底层使用二进制数据进行保存。在保存过程中,我们将字符转换为二进制码的过程成为编码。将二进制码转换为字符的过程称为解码。编码与解码采用字符集的规则进行。

富文本,也称为格式化文本,与纯文本相比,除了保存文本信息外,还可以保存风格、排版等信息,如颜色、式样(黑体、斜体等)、字体尺寸、特性(如超链接)等。

资料来源:

  • 维基百科词条:文本文件
  • 百度百科词条:文本
相关文章
|
8月前
|
机器学习/深度学习 算法 数据挖掘
【Python机器学习】K-Means对文本聚类和半环形数据聚类实战(附源码和数据集)
【Python机器学习】K-Means对文本聚类和半环形数据聚类实战(附源码和数据集)
221 0
|
5月前
|
数据采集 算法 数据可视化
基于Python的k-means聚类分析算法的实现与应用,可以用在电商评论、招聘信息等各个领域的文本聚类及指标聚类,效果很好
本文介绍了基于Python实现的k-means聚类分析算法,并通过微博考研话题的数据清洗、聚类数量评估、聚类分析实现与结果可视化等步骤,展示了该算法在文本聚类领域的应用效果。
170 1
|
5月前
|
自然语言处理 数据可视化 数据挖掘
【python】python新闻文本数据统计和聚类 (源码+文本)【独一无二】
【python】python新闻文本数据统计和聚类 (源码+文本)【独一无二】
166 1
|
5月前
|
数据采集 自然语言处理 数据可视化
基于Python的社交媒体评论数据挖掘,使用LDA主题分析、文本聚类算法、情感分析实现
本文介绍了基于Python的社交媒体评论数据挖掘方法,使用LDA主题分析、文本聚类算法和情感分析技术,对数据进行深入分析和可视化,以揭示文本数据中的潜在主题、模式和情感倾向。
390 0
|
6月前
|
机器学习/深度学习 数据采集 算法
Python基于KMeans算法进行文本聚类项目实战
Python基于KMeans算法进行文本聚类项目实战
|
5月前
|
算法 数据可视化 搜索推荐
基于python的k-means聚类分析算法,对文本、数据等进行聚类,有轮廓系数和手肘法检验
本文详细介绍了基于Python实现的k-means聚类分析算法,包括数据准备、预处理、标准化、聚类数目确定、聚类分析、降维可视化以及结果输出的完整流程,并应用该算法对文本数据进行聚类分析,展示了轮廓系数法和手肘法检验确定最佳聚类数目的方法。
130 0
|
JSON 数据挖掘 数据格式
python 文本聚类
读取excel excel 格式 excel.py # -*- coding: utf-8 -*- import xdrlib ,sys import xlrd import json def open_excel(file= '/home/lhy/data/data.xlsx'): try: data = xlrd.open_workboo
1980 0
|
自然语言处理 搜索推荐 算法
|
30天前
|
人工智能 数据可视化 数据挖掘
探索Python编程:从基础到高级
在这篇文章中,我们将一起深入探索Python编程的世界。无论你是初学者还是有经验的程序员,都可以从中获得新的知识和技能。我们将从Python的基础语法开始,然后逐步过渡到更复杂的主题,如面向对象编程、异常处理和模块使用。最后,我们将通过一些实际的代码示例,来展示如何应用这些知识解决实际问题。让我们一起开启Python编程的旅程吧!
|
29天前
|
存储 数据采集 人工智能
Python编程入门:从零基础到实战应用
本文是一篇面向初学者的Python编程教程,旨在帮助读者从零开始学习Python编程语言。文章首先介绍了Python的基本概念和特点,然后通过一个简单的例子展示了如何编写Python代码。接下来,文章详细介绍了Python的数据类型、变量、运算符、控制结构、函数等基本语法知识。最后,文章通过一个实战项目——制作一个简单的计算器程序,帮助读者巩固所学知识并提高编程技能。