GENIA项目-GENIA语料库

简介:

GENIA corpus

The GENIA corpus is the primary collection of biomedical literature compiled and annotated within the scope of the GENIA project. The corpus was created to support the development and evaluation of information extraction and text mining systems for the domain of molecular biology.

GENIA语料库是为GENIA项目编写并标注的最初的生物医学文献集合。这个语料库是为了发展和评估分子生物学信息检索及文本挖掘系统而创建的。

The corpus contains 1,999 Medline abstracts, selected using a PubMed query for the three MeSH terms "human", "blood cells", and "transcription factors". The corpus has been annotated with various levels of linguistic and semantic information.

PubMed 是一个免费的搜寻引擎,提供生物医学方面的论文搜寻以及摘要。它的数据库来源为MEDLINE。其核心主题为医学,但亦包括其他与医学相关的领域,像是护理学或者其他健康学科。它同时也提供对于相关生物医学资讯上相当全面的支援,像是生化学与细胞生物学。该搜寻引擎是由美国国立医学图书馆提供,作为 Entrez 资讯检索系统的一部分。PubMed 的资讯并不包括期刊论文的全文,但可能提供指向全文提供者(付费或免费)的连结。

这个语料库包含1999Medline的摘要,这些摘要是由PubMed按照humanblood cells以及transcription factors三个医学主题词(medical subject heading terms )为搜索条件搜索到的。这个语料库已经被按照不同级别的语言信息、语义信息进行标注。

  • 词性标注
  • 句法标注
  • 术语标注
  • 事件标注
  • 关系表述
  • 共指标注
  •  

    Part-of-speech (POS) tagging is an initial step of natural language processing which is often performed right after or together with tokenization. After tokenization, every token is assigned a POS label. The GENIA POS annotation generally follows the Penn Treebank POS tagging scheme. The following modifications of this scheme were introduced for the GENIA part-of-speech annotation:

    POS标注是自然语言处理的初始步骤,通常在分词之后或与分词同时进行。分词之后,每个词都被分配一个POS标签。GENIA POS标注大体上遵循滨州树库POS标签体系。为了使这个体系适用于GENIA,做了以下修改。,

    • The NNP and NNPS (proper name) tag is used only for the names of journals, authors, research institutes, and initials of patients. Especially, (discoverers') names in technical terms (e.g. Epstein-Barr virus, Southern blotting) are not tagged with NNP tags.
    • NNPNNPS(专有名词)标签仅用于期刊、作者、研究机构以及患者(?)首写字母。特别需要注意的是,专业术语中的名字不会被标记上NNP标签。
    • We tried to eliminate SYM tags as much as possible.
    • 我们尽可能的淘汰掉了SYM标签。

    See the annotation guideline for the detail. The abstracts are first tagged by the JunK tagger and then corrected by human annotators.

    可以从标注指南中看出更多细节。这些摘要先由JunK标记,然后由标注人员进行更正。

    Examples

     

    Corpus format

    语料库格式

    The corpus is available in two formats, both included in the package available for download below.

    这个语料库可以有以下两种格式,都包括在下边供下载的包中。

    • PTB-like format: The file contains one token/POS pair per line, and a "==========" line (ten equal signs) is put between sentences.
    • PTB-like格式:这个文件中每一行都有一对token/POS,以及每两句中间都有一个“==========”(10个等号)
    • "Merged" gpml format: The POS information is merged into GENIA corpus ver 3.02 using tag which surrounds the token, where the POS is represented as the value of "c" attribute.
    • “Merged” gpml 格式:POS信息被合并到GENIA语料库3.02版(用标签将分词括起来),POS被表示为C属性。

    In the merged format, but not in the PTB-like format, there are some tokens which are assigned "*" as POS. This occurs when a token is split by tags assigned by the annotators of original GENIA corpus. In such cases, the last fragment of a split token is assigned the original POS tag assigned by POS annotators, and other fragments are assigned "*", e.g. anti-IgM.

    在合并格式,并非PTB-like格式中,当一个分词被由原始GENIA语料库标注器给出的标签分割,它的POS就是“*”。这种情况下,一个分词的最后一段被POS标注器分配一个初始POS标签,而其他片段被标注为”*”。例如:anti-IgM.

    Documentation

    文献

    Annotation guidelines

    标注准则

    • Tateisi, Yuka and Jun'ichi Tsujii. GENIA Annotation Guidelines for Tokenization and POS tagging. Technical Report (TR-NLP-UT-2006-4). Tsujii Laboratory, University of Tokyo, 2006.

    Publications

    出版物

    Download

    下载

    Acknowledgments

    Yuka Tateisi: GENIA part-of-speech corpus annotation coordinator


    本文转自ZH奶酪博客园博客,原文链接:http://www.cnblogs.com/CheeseZH/archive/2012/10/28/2743209.html,如需转载请自行联系原作者

    相关文章
    lda模型和bert模型的文本主题情感分类实战
    lda模型和bert模型的文本主题情感分类实战
    304 0
    |
    数据可视化 数据挖掘
    基于Bert的文本聚类工具:BERTopic
    基于Bert的文本聚类工具:BERTopic
    1935 0
    基于Bert的文本聚类工具:BERTopic
    |
    机器学习/深度学习 自然语言处理 算法
    大型语言模型:SBERT — 句子BERT
    大型语言模型:SBERT — 句子BERT
    |
    10月前
    |
    机器学习/深度学习 自然语言处理 数据可视化
    BERT-IMDB电影评论情感分类实战:SwanLab可视化训练
    这篇文章介绍了使用BERT模型进行IMDB电影评论情感分类的实战教程,涉及SwanLab、transformers和datasets库。作者提供了一键安装库的命令,并详细解释了每个库的作用。文章展示了如何加载BERT模型和IMDB数据集,以及如何利用SwanLab进行可视化训练。训练过程在SwanLab平台上进行,包括模型微调、指标记录和结果可视化。此外,还提供了完整代码、模型与数据集的下载链接,以及相关工具的GitHub仓库地址。
    BERT-IMDB电影评论情感分类实战:SwanLab可视化训练
    |
    11月前
    |
    自然语言处理 Python
    使用Python实现文本分类与情感分析模型
    使用Python实现文本分类与情感分析模型
    141 1
    |
    存储 数据采集 自然语言处理
    【BERT-多标签文本分类实战】之四——数据集预处理
    【BERT-多标签文本分类实战】之四——数据集预处理
    984 1
    【BERT-多标签文本分类实战】之四——数据集预处理
    |
    XML 自然语言处理 数据格式
    如何使用中文维基百科语料
    前言 在做自然语言处理时很多时候都会需要中文语料库,高质量的中文语料库较难找,维基百科和百度百科算是比较不错的语料库。
    2954 0
    |
    机器学习/深度学习 自然语言处理 算法
    SnowNLP使用自定义语料进行模型训练(情感分析)
    SnowNLP使用自定义语料进行模型训练(情感分析)
    2169 1
    SnowNLP使用自定义语料进行模型训练(情感分析)
    |
    机器学习/深度学习 数据采集 存储
    【英文文本分类实战】之四——词典提取与词向量提取
    【英文文本分类实战】之四——词典提取与词向量提取
    319 0
    【英文文本分类实战】之四——词典提取与词向量提取
    |
    自然语言处理
    中英文语料公开数据集大全
    中英文语料公开数据集大全
    下一篇
    oss创建bucket