如何高效的生成BIO格式的数据

pengpengxp · 2024 年5 月 30 日 02:14

最近在接触大模型。想用自己的数据做训练。

现在我的数据是一堆的docx的需求文档。想做成可以喂给大模型训练的数据。目前选了下面这个模型：

https://github.com/taishan1994/BERT-BILSTM-CRF/tree/main

请教一下大家有没有好的工具或者办法，可以把我的需求文档，生成对应这样的数据。

我看好像数据要求是BIO的。

Voleking · 2024 年5 月 30 日 05:16

命名实体识别训出来用于抽取文中中的命名实体的（比如“南京市长江大桥”），跟对话式 LLM 有很大区别

你训模型的期望/目标是啥

pengpengxp · 2024 年5 月 31 日 05:44

目的就是希望训练出来对话式的一个工具出来提供给业务人员使用。

这种数据弄出来，不太容易适合吗？

Voleking · 2024 年6 月 1 日 08:06

是的，命名实体识别又不是干这个的，感觉需要补一些基本的知识