📅  最后修改于: 2023-12-03 15:20:55.611000             🧑  作者: Mango
在 Python 中,字符串是以 Unicode 进行编码的。而在存储或者传输字符串时,我们通常需要使用各种编码方式,比如UTF-8
,GBK
等等。 在本文中,我们将重点介绍 UTF-8 编码方式。
UTF-8 是一种用于 Unicode 编码的变长字符编码方式,它可以用一个或多个字节表示一个 Unicode 码点。(一个 Unicode 码点通常是4位十六进制数,即 16 位,约 6 万多个字符。)
Python 默认的编码方式是 UTF-8
。当你需要在代码中使用非 ASCII 字符时,你不需要做任何特别的事情。例如:
print("你好,世界!")
输出:
你好,世界!
在 Python 3 中,字符串默认是 Unicode 编码。因此,我们不需要在字符串前面添加 u 这个符号了。但在 Python 2 中需要添加。
如果你需要从一个文件中读取 UTF-8 编码的字符串,并将其转化为 Python 中的字符串对象,则像下面这样调用 open 函数即可:
with open("filename.txt", "r", encoding="utf-8") as f:
file_contents = f.read()
如果你需要在 Python 文件中使用非 ASCII 字符,为了避免出现编码错误,你应该在脚本的开头添加一个类似于下面这个注释:
# -*- coding: utf-8 -*-
这样可以确保 Python 解释器在读取脚本文件时以 UTF-8 编码方式进行解析。
在 Python 中,使用 UTF-8 编码非常简单。Python 默认的编码方式就是 UTF-8 编码,因此大部分情况下不需要做任何特别的设置。只有在读取或者写入文件时,需要特别注意编码方式。