词嵌入矩阵
词嵌入矩阵是NLP的基石,其应用场景已从基础NLP任务扩展到各行各业。
QkCalc中的词嵌入矩阵
在QkCalc中提供了训练词嵌入矩阵工具。它通过QkAIService来成训练的密集型计算认为据,该服务可部署在Linux服务上,通过QkCalc客户端工具设定训练参数,管理训练任务,查看训练状态
QkAIService
QkAIService是部署在Linux上运行的用于训练大规模数据的服务程序, 与QkCalc不同的是,它是基于Linux平台的服务程序。其目的是为了使用Linux更加高效的计算能力。通过QkCalc可以管理该服务。QkCalc通过发送Http请求与QkAIService进行通信,默认端口是7802。
QkCalc中已训练的词嵌入矩阵
| 关键指标 | 说明 |
|---|---|
| 模型 | Word2Vec |
| 词嵌入矩阵大小(包含词索引和反向映射) | 4.81 G |
| 语料来源 | 维基百科简体中文语料库 |
| 语料大小 | 2.3G |
| 训练时长 | 8小时30分 |
| 词嵌入矩阵中的词数量 | 6,096,706 |
| 词嵌入维度 | 100 |
| 训练参数 | |
| 高频词下采样强度 | 0.00001 |
| 滑动窗口大小 | 1 |
| 负采样数量 | 5 |
| 学习率 | 0.025 |
| 迭代次数 | 5 |