Python jieba 模块,Tokenizer() 实例源码

我们从Python开源项目中,提取了以下15个代码示例,用于说明如何使用jieba.Tokenizer()

项目:cdata    作者:cnschema    | 项目源码 | 文件源码
def __init__(self, entity_list):
        """
            [{"@id":"1","name":"??"},{"@id":"2","name":"??"}]
            all input text are assumed (or will be converted into) unicode
        """
        # init entity index
        self.entities = collections.defaultdict(list)
        entity_list_unicode = []
        for entity in entity_list:
            entity_list_unicode.append(any2unicode(entity))

        for entity in entity_list_unicode:
            name = entity["name"]
            self.entities[name].append(entity)

        for entity in entity_list_unicode:
            for name in entity.get("alternateName", []):
                self.entities[name].append(entity)

        stat(entity_list_unicode, ["name"])

        # init jieba
        self.tokenizer = jieba.Tokenizer()
        for name in self.entities:
            self.tokenizer.add_word(name)
项目:PTTChatBot_DL2017    作者:thisray    | 项目源码 | 文件源码
def __init__(self, tokenizer=None):
        self.tokenizer = tokenizer or jieba.Tokenizer()
        self.load_word_tag(self.tokenizer.get_dict_file())
项目:PTTChatBot_DL2017    作者:thisray    | 项目源码 | 文件源码
def lcut(self, *args, **kwargs):
        return list(self.cut(*args, **kwargs))

# default Tokenizer instance
项目:ChineseSA    作者:cwlseu    | 项目源码 | 文件源码
def __init__(self, tokenizer=None):
        self.tokenizer = tokenizer or jieba.Tokenizer()
        self.load_word_tag(self.tokenizer.get_dict_file())
项目:ChineseSA    作者:cwlseu    | 项目源码 | 文件源码
def lcut(self, *args, **kwargs):
        return list(self.cut(*args, **kwargs))

# default Tokenizer instance
项目:Malicious_Domain_Whois    作者:h-j-13    | 项目源码 | 文件源码
def __init__(self, tokenizer=None):
        self.tokenizer = tokenizer or jieba.Tokenizer()
        self.load_word_tag(self.tokenizer.get_dict_file())
项目:Malicious_Domain_Whois    作者:h-j-13    | 项目源码 | 文件源码
def lcut(self, *args, **kwargs):
        return list(self.cut(*args, **kwargs))

# default Tokenizer instance
项目:jieba-GAE    作者:liantian-cn    | 项目源码 | 文件源码
def __init__(self, tokenizer=None):
        self.tokenizer = tokenizer or jieba.Tokenizer()
        self.load_word_tag(self.tokenizer.get_dict_file())
项目:jieba-GAE    作者:liantian-cn    | 项目源码 | 文件源码
def lcut(self, *args, **kwargs):
        return list(self.cut(*args, **kwargs))

# default Tokenizer instance
项目:my_bit_v1    作者:iSawyer    | 项目源码 | 文件源码
def __init__(self, tokenizer=None):
        self.tokenizer = tokenizer or jieba.Tokenizer()
        self.load_word_tag(self.tokenizer.get_dict_file())
项目:my_bit_v1    作者:iSawyer    | 项目源码 | 文件源码
def lcut(self, *args, **kwargs):
        return list(self.cut(*args, **kwargs))

# default Tokenizer instance
项目:http_server    作者:chenguolin    | 项目源码 | 文件源码
def __init__(self, tokenizer=None):
        self.tokenizer = tokenizer or jieba.Tokenizer()
        self.load_word_tag(self.tokenizer.get_dict_file())
项目:http_server    作者:chenguolin    | 项目源码 | 文件源码
def lcut(self, *args, **kwargs):
        return list(self.cut(*args, **kwargs))

# default Tokenizer instance
项目:http_server    作者:chenguolin    | 项目源码 | 文件源码
def __init__(self, tokenizer=None):
        self.tokenizer = tokenizer or jieba.Tokenizer()
        self.load_word_tag(self.tokenizer.get_dict_file())
项目:http_server    作者:chenguolin    | 项目源码 | 文件源码
def lcut(self, *args, **kwargs):
        return list(self.cut(*args, **kwargs))

# default Tokenizer instance