BERT 中文预训练模型使用札记

只要是从事文本处理相关工作的人应该都知道 Google 最新发布的 BERT 模型,该模型属于是词向量的预训练模型,一经提出便横扫各大 NLP 任务,最近 Google 公司如约推出了中文词向量的预训练模型,不得不说这是一件非常有良心的事情,在此膜拜和感谢 Google 公司。

那么如何使用 bert 的中文预训练好的词向量呢?前两天看见 paperweekly 推送的一篇文章,叫做是 两行代码玩转 Google BERT 句向量词向量 ,文章提出的方法是将 bert-as-service 作为公共基础设施的一部分,部署在一台 GPU 服务器上,使用多台机器从远程同时连接实时获取向量,当做特征信息输入到下游模型。

我在此就结合自己的情况梳理步骤如下:

环境

Ubuntu 16.04
Python 3.6
Tensorflow >= 1.10
尤其要注意 TensorFlow 的版本,如果版本过低,程序则会报错,这种情况下可以直接通过 pip 对包进行升级,命令如下:

pip install --upgrade tensorflow

最开始我就一直卡在了 TensorFlow 的版本过低的问题上了,运行程序一直报错,但是我都没有仔细去看一眼 readme 。真的是不得不把夏朝同学说的那句话引用至此了。

记住,花几个小时各种试,能帮你省下看README的几分钟时间。 via:I Am Developer ​​​​

使用

首先,下载 Google 发布的预训练 BERT 中文词向量模型,下载链接如下:
https://storage.googleapis.com/bert_models/2018_11_03/chinese_L-12_H-768_A-12.zip

然后,运行如下命令,将 bert-as-service 的源代码下载至服务器端:

git clone https://github.com/hanxiao/bert-as-service.git

在 bert-as-service 文件夹中开启 BERT 服务

python app.py -model_dir 模型路径 -num_worker=2

num_worker 是指的开启的服务进程数量,此处的 2 就表示是服务器端最高可以处理来自 2 个客户端的并发请求。但是这并不意味着同一时刻只有 2 个客户端可以连接服务,连接数量是没有限制的,只是说在同一个时刻超过 2 个的并发请求将会放在负载均衡进行排队,等待执行。

最后,将 service/client.py 文件放在客户端将要运行的文件夹中。
下面这个例子举的是在服务器上直接访问本机的例子

from service.client import BertClient
bc = BertClient()
bc.encode(['你好', '成都'])

demo 运行结果

如果要在另一台机器上访问装有 bert-as-service 的服务器,则只需输入对应的 IP 和端口即可,如下所示

from service.client import BertClient
bc = BertClient(ip='xx.xx.xx.xx', port=5555)  # 端口号默认开启的5555
bc.encode(['你好', '成都'])

参考文献

文章最后更新时间为:2019 年 01 月 23 日 10:02:09

已有 6 条评论
  1. sxy sxy

    高级

    1. 佛曰:諳怛隸伽耨遠遠哆盧哆南參缽蘇謹冥度罰知罰苦罰能倒罰都上奢切梵參能梵隸哆沙梵漫怖呐栗缽究知參皤怛侄利故阿想哆夷諳室哆吉呐諸倒倒侄菩罰不缽摩殿是藐槃諳豆

  2. JoyceNg JoyceNg

    你好,这个app.py在哪里呀?

    1. 您好,实在是不好意思,我现在才看见您的留言。现阶段肖涵博士已经更新了bert-as-servce的版本了,您可以查看这个链接,https://github.com/hanxiao/bert-as-service#getting-started ,现在是直接 pip 就可以安装了

      pip install bert-serving-server  # server
      pip install bert-serving-client

      具体的启动方式您看那个README就明白了

  3. wqq wqq

    请问这个bert是不是既可以获取词向量,也可以获取句子向量,请问这个词向量和句子向量都是默认的768维吗??

    1. 如果你使用的是BERT-base模型,那么就是768维,如果是BERT-large模型,那么就是1024维

添加新评论