texts = [
"疫情期间,俄罗斯 联邦军队医疗机构的负责人Saanvi Alia在方城县启动了远程医疗服务。",
"疫情期间,俄罗斯 联 邦 军队医疗机构的负责人Saanvi Alia在方城县启动了远程医疗服务。",
"疫情期间,俄罗 斯 联 邦 军 队医疗 机构的负责人Saanvi Alia在方城县启动了远程医疗服务。",
]
for text in texts:
doc = nlp(text)
for ent in doc.ents:
print(ent.text, ent.start, ent.end)
print()
令人震惊和愤怒的是三次结果输出的位置是一样的!spacy居然先把空格过滤了再输出位置。
虽然输出的实体位置不是真实的位置,但displacy渲染结果都是对的。
修改正确实体定位
texts = [
"疫情期间,俄罗斯 联邦军队医疗机构的负责人Saanvi Alia在方城县启动了远程医疗服务。",
"疫情期间,俄罗斯 联 邦 军队医疗机构的负责人Saanvi Alia在方城县启动了远程医疗服务。",
"疫情期间,俄罗 斯 联 邦 军 队医疗 机构的负责人Saanvi Alia在方城县启动了远程医疗服务。",
]
for text in texts:
doc = nlp(text)
for ent in doc.ents:
entity = ent.text
start = ent.start + text[ent.start:].index(ent.text) # 因为忽略了空格,实体的实际位置总是在ent.start之后
end = start + len(entity)
print(entity, start, end,)
assert(entity == text[start:end])
print()