词嵌入矩阵

词嵌入矩阵是NLP的基石,其应用场景已从基础NLP任务扩展到各行各业。

QkCalc中的词嵌入矩阵

在QkCalc中提供了训练词嵌入矩阵工具。它通过QkAIService来成训练的密集型计算认为据,该服务可部署在Linux服务上,通过QkCalc客户端工具设定训练参数,管理训练任务,查看训练状态

QkAIService

QkAIService是部署在Linux上运行的用于训练大规模数据的服务程序, 与QkCalc不同的是,它是基于Linux平台的服务程序。其目的是为了使用Linux更加高效的计算能力。通过QkCalc可以管理该服务。QkCalc通过发送Http请求与QkAIService进行通信,默认端口是7802。

QkCalc中已训练的词嵌入矩阵

关键指标 说明
模型 Word2Vec
词嵌入矩阵大小(包含词索引和反向映射) 4.81 G
语料来源 维基百科简体中文语料库
语料大小 2.3G
训练时长 8小时30分
词嵌入矩阵中的词数量 6,096,706
词嵌入维度 100
训练参数
高频词下采样强度 0.00001
滑动窗口大小 1
负采样数量 5
学习率 0.025
迭代次数 5