最近在接触大模型。想用自己的数据做训练。
现在我的数据是一堆的docx的需求文档。想做成可以喂给大模型训练的数据。目前选了下面这个模型:
https://github.com/taishan1994/BERT-BILSTM-CRF/tree/main
请教一下大家有没有好的工具或者办法,可以把我的需求文档,生成对应这样的数据。
我看好像数据要求是BIO的。
最近在接触大模型。想用自己的数据做训练。
现在我的数据是一堆的docx的需求文档。想做成可以喂给大模型训练的数据。目前选了下面这个模型:
https://github.com/taishan1994/BERT-BILSTM-CRF/tree/main
请教一下大家有没有好的工具或者办法,可以把我的需求文档,生成对应这样的数据。
我看好像数据要求是BIO的。
命名实体识别训出来用于抽取文中中的命名实体的(比如“南京市长江大桥”),跟对话式 LLM 有很大区别
你训模型的期望/目标是啥
目的就是希望训练出来对话式的一个工具出来提供给业务人员使用。
这种数据弄出来,不太容易适合吗?
是的,命名实体识别又不是干这个的,感觉需要补一些基本的知识