1. 程式人生 > >【Python】使用python實現漢字轉拼音(2018.12更新)

【Python】使用python實現漢字轉拼音(2018.12更新)

在瀏覽部落格時,偶然看到了用python將漢字轉為拼音的第三方包,但是在實現的過程中發現一些引數已經更新,現在將兩種方法記錄一下。

xpinyin

在一些部落格中看到,如果要轉化成帶音節的拼音,需要傳遞引數,‘show_tone_marks=True’,但我在實際使用時發現,已經沒有這個引數了,變成了tone_marks,其它的引數和使用方法,一看就明白了,寫的很清楚。
看下原始碼:

class Pinyin(object):

    """translate chinese hanzi to pinyin by python, inspired by flyerhzm’s
    `chinese\_pinyin`_ gem

    usage
    -----
    ::

        >>> from xpinyin import Pinyin
        >>> p = Pinyin()
        >>> # default splitter is `-`
        >>> p.get_pinyin(u"上海")
        'shang-hai'
        >>> # show tone marks
        >>> p.get_pinyin(u"上海", tone_marks='marks')
        'shàng-hǎi'
        >>> p.get_pinyin(u"上海", tone_marks='numbers')
        >>> 'shang4-hai3'
        >>> # remove splitter
        >>> p.get_pinyin(u"上海", '')
        'shanghai'
        >>> # set splitter as whitespace
        >>> p.get_pinyin(u"上海", ' ')
        'shang hai'
        >>> p.get_initial(u"上")
        'S'
        >>> p.get_initials(u"上海")
        'S-H'
        >>> p.get_initials(u"上海", u'')
        'SH'
        >>> p.get_initials(u"上海", u' ')
        'S H'

    請輸入utf8編碼漢字
    .. _chinese\_pinyin: https://github.com/flyerhzm/chinese_pinyin
    """
  • 安裝:pip install xpinyin
  • 程式碼:
from xpinyin import Pinyin


# 例項拼音轉換物件
p = Pinyin()
# 進行拼音轉換
ret = p.get_pinyin(u"漢語拼音轉換", tone_marks='marks')
ret1 = p.get_pinyin(u"漢語拼音轉換", tone_marks='numbers')
print(ret+'\n'+ret1)
# 得到轉化後的結果
# hàn-yǔ-pīn-yīn-zhuǎn-huàn
# han4-yu3-pin1-yin1-zhuan3-huan4

pypinyin

  • 與xpinyin相比,pypinyin更強大。
  • 安裝:pip install pypinyin
  • 使用:
import pypinyin


# 不帶聲調的(style=pypinyin.NORMAL)
def pinyin(word):
    s = ''
    for i in pypinyin.pinyin(word, style=pypinyin.NORMAL):
        s += ''.join(i)
    return s


# 帶聲調的(預設)
def yinjie(word):
    s = ''
    # heteronym=True開啟多音字
for i in pypinyin.pinyin(word, heteronym=True): s = s + ''.join(i) + " " return s if __name__ == "__main__": print(pinyin("忠厚傳家久")) print(yinjie("詩書繼世長"))
  • 原始碼:
#!/usr/bin/env python
# -*- coding: utf-8 -*-

from __future__ import unicode_literals

from copy import deepcopy
from itertools import chain

from pypinyin.compat import text_type, callable_check
from pypinyin.constants import (
    PHRASES_DICT, PINYIN_DICT,
    RE_HANS, Style
)
from pypinyin.contrib import mmseg
from pypinyin.utils import simple_seg, _replace_tone2_style_dict_to_default
from pypinyin.style import auto_discover, convert as convert_style

auto_discover()


def seg(hans):
    hans = simple_seg(hans)
    ret = []
    for x in hans:
        if not RE_HANS.match(x):   # 沒有拼音的字元,不再參與二次分詞
            ret.append(x)
        elif PHRASES_DICT:
            ret.extend(list(mmseg.seg.cut(x)))
        else:   # 禁用了詞語庫,不分詞
            ret.append(x)
    return ret


def load_single_dict(pinyin_dict, style='default'):
    """載入使用者自定義的單字拼音庫

    :param pinyin_dict: 單字拼音庫。比如: ``{0x963F: u"ā,ē"}``
    :param style: pinyin_dict 引數值的拼音庫風格. 支援 'default', 'tone2'
    :type pinyin_dict: dict
    """
    if style == 'tone2':
        for k, v in pinyin_dict.items():
            v = _replace_tone2_style_dict_to_default(v)
            PINYIN_DICT[k] = v
    else:
        PINYIN_DICT.update(pinyin_dict)

    mmseg.retrain(mmseg.seg)


def load_phrases_dict(phrases_dict, style='default'):
    """載入使用者自定義的詞語拼音庫

    :param phrases_dict: 詞語拼音庫。比如: ``{u"阿爸": [[u"ā"], [u"bà"]]}``
    :param style: phrases_dict 引數值的拼音庫風格. 支援 'default', 'tone2'
    :type phrases_dict: dict
    """
    if style == 'tone2':
        for k, value in phrases_dict.items():
            v = [
                list(map(_replace_tone2_style_dict_to_default, pys))
                for pys in value
            ]
            PHRASES_DICT[k] = v
    else:
        PHRASES_DICT.update(phrases_dict)

    mmseg.retrain(mmseg.seg)


def to_fixed(pinyin, style, strict=True):
    """根據拼音風格格式化帶聲調的拼音.

    :param pinyin: 單個拼音
    :param style: 拼音風格
    :param strict: 是否嚴格遵照《漢語拼音方案》來處理聲母和韻母
    :return: 根據拼音風格格式化後的拼音字串
    :rtype: unicode
    """
    return convert_style(pinyin, style=style, strict=strict, default=pinyin)


def _handle_nopinyin_char(chars, errors='default'):
    """處理沒有拼音的字元"""
    if callable_check(errors):
        return errors(chars)

    if errors == 'default':
        return chars
    elif errors == 'ignore':
        return None
    elif errors == 'replace':
        if len(chars) > 1:
            return ''.join(text_type('%x' % ord(x)) for x in chars)
        else:
            return text_type('%x' % ord(chars))


def handle_nopinyin(chars, errors='default', heteronym=True):
    py = _handle_nopinyin_char(chars, errors=errors)
    if not py:
        return []
    if isinstance(py, list):
        # 包含多音字資訊
        if isinstance(py[0], list):
            if heteronym:
                return py
            # [[a, b], [c, d]]
            # [[a], [c]]
            return [[x[0]] for x in py]

        return [[i] for i in py]
    else:
        return [[py]]


def single_pinyin(han, style, heteronym, errors='default', strict=True):
    """單字拼音轉換.

    :param han: 單個漢字
    :param errors: 指定如何處理沒有拼音的字元,詳情請參考
                   :py:func:`~pypinyin.pinyin`
    :param strict: 是否嚴格遵照《漢語拼音方案》來處理聲母和韻母
    :return: 返回拼音列表,多音字會有多個拼音項
    :rtype: list
    """
    num = ord(han)
    # 處理沒有拼音的字元
    if num not in PINYIN_DICT:
        return handle_nopinyin(han, errors=errors, heteronym=heteronym)

    pys = PINYIN_DICT[num].split(',')  # 字的拼音列表
    if not heteronym:
        return [[to_fixed(pys[0], style, strict=strict)]]

    # 輸出多音字的多個讀音
    # 臨時儲存已存在的拼音,避免多音字拼音轉換為非音標風格出現重複。
    # TODO: change to use set
    # TODO: add test for cache
    py_cached = {}
    pinyins = []
    for i in pys:
        py = to_fixed(i, style, strict=strict)
        if py in py_cached:
            continue
        py_cached[py] = py
        pinyins.append(py)
    return [pinyins]


def phrase_pinyin(phrase, style, heteronym, errors='default', strict=True):
    """詞語拼音轉換.

    :param phrase: 詞語
    :param errors: 指定如何處理沒有拼音的字元
    :param strict: 是否嚴格遵照《漢語拼音方案》來處理聲母和韻母
    :return: 拼音列表
    :rtype: list
    """
    py = []
    if phrase in PHRASES_DICT:
        py = deepcopy(PHRASES_DICT[phrase])
        for idx, item in enumerate(py):
            py[idx] = [to_fixed(item[0], style=style, strict=strict)]
    else:
        for i in phrase:
            single = single_pinyin(i, style=style, heteronym=heteronym,
                                   errors=errors, strict=strict)
            if single:
                py.extend(single)
    return py


def _pinyin(words, style, heteronym, errors, strict=True):
    """
    :param words: 經過分詞處理後的字串,只包含中文字元或只包含非中文字元,
                  不存在混合的情況。
    """
    pys = []
    # 初步過濾沒有拼音的字元
    if RE_HANS.match(words):
        pys = phrase_pinyin(words, style=style, heteronym=heteronym,
                            errors=errors, strict=strict)
        return pys

    py = handle_nopinyin(words, errors=errors, heteronym=heteronym)
    if py:
        pys.extend(py)
    return pys


def pinyin(hans, style=Style.TONE, heteronym=False,
           errors='default', strict=True):
    """將漢字轉換為拼音.

    :param hans: 漢字字串( ``'你好嗎'`` )或列表( ``['你好', '嗎']`` ).
                 可以使用自己喜愛的分詞模組對字串進行分詞處理,
                 只需將經過分詞處理的字串列表傳進來就可以了。
    :type hans: unicode 字串或字串列表
    :param style: 指定拼音風格,預設是 :py:attr:`~pypinyin.Style.TONE` 風格。
                  更多拼音風格詳見 :class:`~pypinyin.Style`
    :param errors: 指定如何處理沒有拼音的字元。詳見 :ref:`handle_no_pinyin`

                   * ``'default'``: 保留原始字元
                   * ``'ignore'``: 忽略該字元
                   * ``'replace'``: 替換為去掉 ``\\u`` 的 unicode 編碼字串
                     (``'\\u90aa'`` => ``'90aa'``)
                   * callable 物件: 回撥函式之類的可呼叫物件。

    :param heteronym: 是否啟用多音字
    :param strict: 是否嚴格遵照《漢語拼音方案》來處理聲母和韻母,詳見 :ref:`strict`
    :return: 拼音列表
    :rtype: list

    :raise AssertionError: 當傳入的字串不是 unicode 字元時會丟擲這個異常

    Usage::

      >>> from pypinyin import pinyin, Style
      >>> import pypinyin
      >>> pinyin('中心')
      [['zhōng'], ['xīn']]
      >>> pinyin('中心', heteronym=True)  # 啟用多音字模式
      [['zhōng', 'zhòng'], ['xīn']]
      >>> pinyin('中心', style=Style.FIRST_LETTER)  # 設定拼音風格
      [['z'], ['x']]
      >>> pinyin('中心', style=Style.TONE2)
      [['zho1ng'], ['xi1n']]
      >>> pinyin('中心', style=Style.CYRILLIC)
      [['чжун1'], ['синь1']]
    """
    # 對字串進行分詞處理
    if isinstance(hans, text_type):
        han_list = seg(hans)
    else:
        han_list = chain(*(seg(x) for x in hans))
    pys = []
    for words in han_list:
        pys.extend(_pinyin(words, style, heteronym, errors, strict=strict))
    return pys


def slug(hans, style=Style.NORMAL, heteronym=False, separator='-',
         errors='default', strict=True):
    """生成 slug 字串.

    :param hans: 漢字
    :type hans: unicode or list
    :param style: 指定拼音風格,預設是 :py:attr:`~pypinyin.Style.NORMAL` 風格。
                  更多拼音風格詳見 :class:`~pypinyin.Style`
    :param heteronym: 是否啟用多音字
    :param separstor: 兩個拼音間的分隔符/連線符
    :param errors: 指定如何處理沒有拼音的字元,詳情請參考
                   :py:func:`~pypinyin.pinyin`
    :param strict: 是否嚴格遵照《漢語拼音方案》來處理聲母和韻母,詳見 :ref:`strict`
    :return: slug 字串.

    :raise AssertionError: 當傳入的字串不是 unicode 字元時會丟擲這個異常

    ::

      >>> import pypinyin
      >>> from pypinyin import Style
      >>> pypinyin.slug('中國人')
      'zhong-guo-ren'
      >>> pypinyin.slug('中國人', separator=' ')
      'zhong guo ren'
      >>> pypinyin.slug('中國人', style=Style.FIRST_LETTER)
      'z-g-r'
      >>> pypinyin.slug('中國人', style=Style.CYRILLIC)
      'чжун1-го2-жэнь2'
    """
    return separator.join(chain(*pinyin(hans, style=style, heteronym=heteronym,
                                        errors=errors, strict=strict)
                                ))


def lazy_pinyin(hans, style=Style.NORMAL, errors='default', strict=True):
    """不包含多音字的拼音列表.

    與 :py:func:`~pypinyin.pinyin` 的區別是返回的拼音是個字串,
    並且每個字只包含一個讀音.

    :param hans: 漢字
    :type hans: unicode or list
    :param style: 指定拼音風格,預設是 :py:attr:`~pypinyin.Style.NORMAL` 風格。
                  更多拼音風格詳見 :class:`~pypinyin.Style`。
    :param errors: 指定如何處理沒有拼音的字元,詳情請參考
                   :py:func:`~pypinyin.pinyin`
    :param strict: 是否嚴格遵照《漢語拼音方案》來處理聲母和韻母,詳見 :ref:`strict`
    :return: 拼音列表(e.g. ``['zhong', 'guo', 'ren']``)
    :rtype: list

    :raise AssertionError: 當傳入的字串不是 unicode 字元時會丟擲這個異常

    Usage::

      >>> from pypinyin import lazy_pinyin, Style
      >>> import pypinyin
      >>> lazy_pinyin('中心')
      ['zhong', 'xin']
      >>> lazy_pinyin('中心', style=Style.TONE)
      ['zhōng', 'xīn']
      >>> lazy_pinyin('中心', style=Style.FIRST_LETTER)
      ['z', 'x']
      >>> lazy_pinyin('中心', style=Style.TONE2)
      ['zho1ng', 'xi1n']
      >>> lazy_pinyin('中心', style=Style.CYRILLIC)
      ['чжун1', 'синь1']
    """
    return list(chain(*pinyin(hans, style=style, heteronym=False,
                              errors=errors, strict=strict)))