文件编码概念

文件编码

思考:计算机只能识别:0和1,那么我们丰富的文本文件是如何被计算机识别,并存储在硬盘中呢?

答案:使用编码技术(密码本)将内容翻译成0和1存入

编码技术即:翻译的规则,记录了如何将内容翻译成二进制,以及如何将二进制翻译会可识别内容

计算机中有许多可用编码:UTF-8、GBK、Big5等

不同的编码,将内容翻译成二进制也是不同的

查看文件编码

我们可以使用Windows系统自带的记事本,打开文件后,即可看出文件的编码是什么

UTF-8是目前全球通用的编码格式

除非有特殊需求,否则,一律以UTF-8格式进行文件编码即可

总结

  • 编码就是一种规则集合,记录了内容和二进制间进行相互转换的逻辑
  • 编码中我们最常用的是UTF-8编码
  • 计算机只0和1,所以需要将内容翻译成0和1才能保存在计算机中
  • 同时也需要编码,将计算机保存的0和1,反向翻译回可以识别的内容

文件的读取操作

什么是文件

内存中存放的数据在计算机关机后就会消失。要长久保存数据,就要使用硬盘、光盘、U盘等设备。为了便于数据的管理和检索,引入了”文件“的概念

一篇文章、一段视频、一个可执行程序,都可以被保存为一个文件,并赋予一个文件名。操作系统以文件为单位管理磁盘中的数据。一般来说,文件可分为文本文件、视频文件、音频文件、图像文件、可执行文件等多种类别

open()打开函数

在Python,使用open函数,可以打开一个已经存在的文件,或者创建一个新文件,语法如下

1
open(name, mode, encoding)

name:是要打开的目标文件名的字符串(可以包含文件所在的具体路径)

mode:设置打开文件的模式(访问模式):只读、写入、追加等

encoding:编码格式(推荐使用UTF-8)

示例代码:

1
2
f=open('python.txt','r',encoding="UTF-8")
# encoding的顺序不是第三位,所以不能用位置参数,用关键字参数直接指定

注意:此时的’f’是’open’函数的文件对象,对象是Python中一种特殊的数据类型,拥有属性和方法,可以使用对象.属性或对象.方法对其进行访问

mode常用的三种基础访问模式

模式 描述
r 以只读方式打开文件。文件的指针将会放在文件的开头。这是默认模式
w 打开一个文件只用于写入。如果该文件已存在则打开文件,并从开头开始编辑,
原有内容会被删除。如果该文件不存在,创建新文件
a 打开一个文件用于追加。如果该文件已存在,新的内容会被写入到已有内容之后。
如果该文件不存在,创建新文件进行写入

读操作相关方法

read()方法:

1
文件对象.read(num)

num表示要从文件中读取的数据长度(单位是字节),如果没有传入num,那么就表示读取文件中所有的数据

readlines()方法:

readlines可以按照行的方式把整个文件中的内容进行一次性读取,并且返回的是一个列表,其中每一行的数据为一个元素

1
2
3
4
5
6
f=open('python.txt')
content = f.readlines()
# ['hello world\n','abcdefg\n','aaa\n','bbb\n','ccc']
print(content)
# 关闭文件
f.close()

readline()方法:一次读取一行内容

1
2
3
4
5
6
7
f=open('python.txt')
content = f.readline()
print(f'第一行:{content}')
content = f.readline()
print(f'第二行:{content}')
# 关闭文件
f.close()

close()关闭文件对象

1
2
3
4
f = open("python.txt","r")
f.close()
# 最后通过close,关闭文件对象,也就是关闭对文件的占用
# 如果不调用close,同时程序没有停止运行,那么这个文件将一直被Python程序占用

读操作相关方法

with open语法

1
2
3
4
with open("Python.txt","r") as f:
f.readlines()
# 通过在with open的语句块中对文件进行操作
# 可以在操作完成后自动关闭close文件,避免遗忘掉close方法

操作汇总

操作 功能
文件对象 = open(file, mode, encoding) 打开文件获得文件对象
文件对象.read(num) 读取指定长度字节
不指定num读取文件全部
文件对象.readline() 读取一行
文件对象.readlines() 读取全部行,得到列表
for line in 文件对象 for循环文件行,一次循环得到一行数据
文件对象.close() 关闭文件对象
with open() as f 通过with open语法打开文件,可以自动关闭

总结

  1. 操作文件需要通过open函数打开文件得到文件对象
  2. 文件对象有如下读取方法:
    • read()
    • readline()
    • readlines()
    • for line in 文件对象
  3. 文件读取完成后,要使用文件对象.close()方法关闭文件对象,否则文件会被一直占用

Demo

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
"""
演示对文件的读取
"""
import time
# 打开文件
f = open("C:/Users/lenovo/Desktop/test.txt", "r", encoding = "UTF-8")
print(type(f))
# 读取文件 - read()
# print(f"读取10个字节的结果:{f.read(10)}")
# print(f"read方法读取全部内容的结果:{f.read()}")
# 读取文件 - readLines()
# lines = f.readlines() # 读取文件的全部行,封装到列表中
# print(f"lines对象的类型:{type(lines)}")
# print(f"lines对象的内容是:{lines}")
# 读取文件 - readline()
# line1 = f.readline()
# line2 = f.readline()
# line3 = f.readline()
# print(f"第一行数据是:{line1}")
# print(f"第二行数据是:{line2}")
# print(f"第三行数据是:{line3}")
# for循环读取文件行
# for line in f:
# print(f"每一行数据是:{line}")
# 文件的关闭
# f.close()
# time.sleep(500000)
# with open 语法操作文件
with open("C:/Users/lenovo/Desktop/test.txt", "r", encoding = "UTF-8") as f:
for line in f:
print(f"每一行的数据是:{line}")
time.sleep(500000)

Demo2

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
"""
演示读取文件,课后练习题
"""
# 打开文件,以读取模式打开
f = open("C:/Users/lenovo/Desktop/test.txt", "r", encoding = "UTF-8")
# 方式1:读取全部内容,通过字符串count方法统计itheima单词数量
# content = f.read()
# count = content.count("itheima")
# print(f"itheima在文件中出现了:{count}次")
# 方式2:读取内容,一行一行读取
count = 0 # 使用count变量来累计itheima出现的次数
for line in f:
line = line.strip() # 去除开头和结尾的空格以及换行符
words = line.split(" ")
for word in words:
if word == "itheima":
count += 1 # 如果单词是itheima,进行数量的累加加1
# 判断单词出现次数并累计
print(f"itheima出现的次数是:{count}")
# 关闭文件
f.close()

test.txt

1
2
3
4
5
6
itheima itcast python
itheima python itcast
beijing shanghai itheima
shenzhen guangzhou itheima
wuhan hangzhou itheima
zhengzhou bigdata itheima

运行结果

1
itheima出现的次数是:6

文件的写出操作

写操作快速入门

案例演示:

1
2
3
4
5
6
# 1.打开文件
f = open('python.txt','w')
# 2.文件写入
f.write('hello world')
# 3.内容刷新
f.flush()

注意:

  • 直接调用write,内容并未真正写入文件,而是会积攒在程序的内存中,称之为缓冲区
  • 当调用flush的时候,内容会真正写入文件
  • 这样做是避免频繁的操作硬盘,导致效率下降(攒一堆,一次性写磁盘)

总结

  1. 写入文件使用open函数的“w”模式进行写入
  2. 写入的方法有:
    • write(),写入内容
    • flush(),刷新内容到硬盘中
  3. 注意事项:
    • w模式,文件不存在,会创建新文件
    • w模式,文件存在,会清空原有内容
    • close()方法,带有flush()方法的功能

Demo

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
"""
演示文件的写入
"""
# 打开文件,不存在的文件,r,w,a
import time
# f = open("C:/Users/lenovo/Desktop/test.txt", "w", encoding = "UTF-8")
# # write写入
# f.write("Hello World!!!") # 内容写入到内存中
# # flush刷新
# # f.flush() # 将内存中积攒的内容,写入到硬盘的文件中
# # close关闭
# f.close() # close方法,内置了flush的功能
# 打开一个存在的文件
f = open("C:/Users/lenovo/Desktop/test.txt", "w", encoding = "UTF-8")
# write写入,flush刷新
f.write("黑马程序员")
# close关闭
f.close()

文件的追加写入操作

追加写入操作快速入门

案例演示:

1
2
3
4
5
6
# 1.打开文件,通过a模式打开即可
f = open('python.txt', 'a')
# 2.文件写入
f.write('hello world')
# 3.内容刷新
f.flush()

注意:

  • a模式,文件不存在会创建文件
  • a模式,文件存在会在最后,追加写入文件

总结

  1. 追加写入文件使用open函数的”a”模式进行写入
  2. 追加写入的方法有(和w模式一致):
    • write(),写入内容
    • flush(),刷新内容到硬盘中
  3. 注意事项:
    • a模式,文件不存在,会创建新文件
    • a模式,文件存在,会在原有内容后面继续写入
    • 可以使用“\n”来写出换行符

Demo

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
"""
演示文件的追加写入
"""
# 打开文件,不存在的文件
f = open("C:/Users/lenovo/Desktop/test.txt", "a", encoding = "UTF-8")
# write写入
f.write("黑马程序员")
# flush刷新
f.flush()
# close关闭
f.close()
# 打开一个存在的文件
f = open("C:/Users/lenovo/Desktop/test.txt", "a", encoding = "UTF-8")
# write写入,flush刷新
f.write("学Python最佳选择")
# close关闭
f.close()

文件操作的综合案例

需求分析

我们现在要做的就是:

  • 读取文件
  • 将文件写出到bill.txt.bak文件作为备份
  • 同时,将文件内标记为测试的数据行丢弃

实现思路:

  • open和r模式打开一个文件对象,并读取文件
  • open和w模式打开另一个文件对象,用于文件写出
  • for循环内容,判断是否是测试不是测试就write写出,是测试就continue跳过
  • 将2个文件对象均close()

Demo

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
"""
演示文件操作综合案例:文件备份
"""
# 打开文件得到文件对象,准备读取
fr = open("C:/Users/lenovo/Desktop/test.txt", "r", encoding = "UTF-8")
# 打开文件得到文件对象,准备写入
fw = open("C:/Users/lenovo/Desktop/test.txt.bak", "w", encoding = "UTF-8")
# for循环读取文件
for line in fr:
line = line.strip()
# 判断内容,将满足的内容写出
if line.split(",")[4] == "测试":
continue # continue进入下一次循环,这一次后面的内容就跳过了
# 将内容写出去
fw.write(line)
# 由于前面对内容进行了strip()的操作,所以要手动的写出换行符
fw.write("\n")
# close2个文件对象
fr.close()
fw.close() # 写出文件调用close()会自动flush()

运行结果

test.txt

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
name,date,money,type,remarks
周杰轮,2022-01-01,100000,消费,正式
周杰轮,2022-01-02,300000,收入,正式
周杰轮,2022-01-03,100000,消费,测试
林俊节,2022-01-01,300000,收入,正式
林俊节,2022-01-02,100000,消费,测试
林俊节,2022-01-03,100000,消费,正式
林俊节,2022-01-04,100000,消费,测试
林俊节,2022-01-05,500000,消费,正式
张学油,2022-01-01,100000,消费,正式
张学油,2022-01-02,500000,收入,正式
张学油,2022-01-03,900000,收入,测试
王力鸿,2022-01-01,500000,消费,正式
王力鸿,2022-01-02,300000,消费,测试
王力鸿,2022-01-03,950000,收入,正式
刘德滑,2022-01-01,300000,消费,测试
刘德滑,2022-01-02,100000,消费,正式
刘德滑,2022-01-03,300000,消费,正式

test.txt.bak

1
2
3
4
5
6
7
8
9
10
11
12
13
name,date,money,type,remarks
周杰轮,2022-01-01,100000,消费,正式
周杰轮,2022-01-02,300000,收入,正式
林俊节,2022-01-01,300000,收入,正式
林俊节,2022-01-03,100000,消费,正式
林俊节,2022-01-05,500000,消费,正式
张学油,2022-01-01,100000,消费,正式
张学油,2022-01-02,500000,收入,正式
王力鸿,2022-01-01,500000,消费,正式
王力鸿,2022-01-03,950000,收入,正式
刘德滑,2022-01-02,100000,消费,正式
刘德滑,2022-01-03,300000,消费,正式