c# 去除重音符号

📌 相关文章

📜 c# 去除重音符号 - C# (1)

📅 最后修改于: 2023-12-03 15:13:50.757000 🧑 作者: Mango

在C#中，字符串可以包含各种特殊字符，比如重音符号（diacritic marks）。然而在一些场景下，我们需要将字符串中的重音符号给去除掉。

本文将介绍如何使用C#去除字符串中的重音符号。

1. 使用UnicodeNormalization类

UnicodeNormalization类提供了多种方法进行字符串的Unicode标准化，其中一个就是将字符串中的重音符号转换成相应的单字符。

using System;
using System.Globalization;

class Program
{
    static void Main(string[] args)
    {
        string input = "Café au Lait";

        string normalized = input.Normalize(NormalizationForm.FormD);
        string result = string.Empty;

        foreach (char c in normalized)
        {
            if (CharUnicodeInfo.GetUnicodeCategory(c) != UnicodeCategory.NonSpacingMark)
            {
                result += c;
            }
        }

        Console.WriteLine(result);
    }
}

在本例中先通过Normalize方法，将字符串input进行标准化（采用FormD标准），
然后遍历该字符串中的每个字符，比较它们的Unicode类别，跳过重音符号（Unicode类别为NonSpacingMark），
最后将剩下的字符保存到result字符串中，输出即可得到没有重音符号的字符串。

需要注意的是，本例中使用了string的+=来拼接字符串。这样的做法是不好的，因此应该使用 StringBuilder 来保存拼接字符串。

2. 使用正则表达式

另一种去除重音符号的方法是，使用正则表达式将重音符号替换为空字符串。

using System;
using System.Globalization;
using System.Text.RegularExpressions;

class Program
{
    static void Main(string[] args)
    {
        string input = "Café au Lait";

        string pattern = @"\p{M}";
        string result = Regex.Replace(input.Normalize(NormalizationForm.FormD), pattern, string.Empty);

        Console.WriteLine(result);
    }
}

在本例中，我们先使用Normalize方法将字符串input进行标准化（采用FormD标准）。
然后使用正则表达式找到所有Unicode类别为NonSpacingMark的字符（即重音符号），
最后将这些字符替换为空字符串，得到的结果即为没有重音符号的字符串。

需要注意的是，本例中使用了@符号，将\p{M}作为正则表达式的一部分。这样可以避免字符串中的\与正则表达式的\混淆。

总结

本文介绍了两种方法使用C#去除字符串中的重音符号，分别是使用UnicodeNormalization类和正则表达式。在实际开发中，可以根据场景选择适合的方法。