具体需要怎么进行操作,或者是需要配置什么东西吗?
表格数据是专业性较强的属于或者缩写也是可以支持的,但是可能效果并不是特别好,如果想提升效果,可以通过配置近义词的方式,增强模型的能力。
主要通过在初始化Database类的时候,导入近义词词典syn_dict_file_path
,这个词典用户可以自行配置。具体如下:
db = Database(
tokenizer=tokenizer,
table_file_path=os.path.join(model.model_dir, 'table.json'),
syn_dict_file_path=os.path.join(model.model_dir, 'synonym.txt'),
is_use_sqlite=True)
近义词词典文件可以在模型文件中对应的synontm.txt
找到,示例如下图: 比如,你的表格中有个列叫“GDP”,但是你的问题可能是“中国2021年国民生产总值是多少?”模型如果没有识别出来,通过配置近义词“GDP | 国民生产总值”的方式,可以让模型能够正确识别。