如何高效的生成BIO格式的数据

最近在接触大模型。想用自己的数据做训练。

现在我的数据是一堆的docx的需求文档。想做成可以喂给大模型训练的数据。目前选了下面这个模型:

https://github.com/taishan1994/BERT-BILSTM-CRF/tree/main

请教一下大家有没有好的工具或者办法,可以把我的需求文档,生成对应这样的数据。

我看好像数据要求是BIO的。

命名实体识别训出来用于抽取文中中的命名实体的(比如“南京市长江大桥”),跟对话式 LLM 有很大区别

你训模型的期望/目标是啥

目的就是希望训练出来对话式的一个工具出来提供给业务人员使用。

这种数据弄出来,不太容易适合吗?

是的,命名实体识别又不是干这个的,感觉需要补一些基本的知识