GENIA项目-GENIA语料库

简介:

GENIA corpus

The GENIA corpus is the primary collection of biomedical literature compiled and annotated within the scope of the GENIA project. The corpus was created to support the development and evaluation of information extraction and text mining systems for the domain of molecular biology.

GENIA语料库是为GENIA项目编写并标注的最初的生物医学文献集合。这个语料库是为了发展和评估分子生物学信息检索及文本挖掘系统而创建的。

The corpus contains 1,999 Medline abstracts, selected using a PubMed query for the three MeSH terms "human", "blood cells", and "transcription factors". The corpus has been annotated with various levels of linguistic and semantic information.

PubMed 是一个免费的搜寻引擎,提供生物医学方面的论文搜寻以及摘要。它的数据库来源为MEDLINE。其核心主题为医学,但亦包括其他与医学相关的领域,像是护理学或者其他健康学科。它同时也提供对于相关生物医学资讯上相当全面的支援,像是生化学与细胞生物学。该搜寻引擎是由美国国立医学图书馆提供,作为 Entrez 资讯检索系统的一部分。PubMed 的资讯并不包括期刊论文的全文,但可能提供指向全文提供者(付费或免费)的连结。

这个语料库包含1999Medline的摘要,这些摘要是由PubMed按照humanblood cells以及transcription factors三个医学主题词(medical subject heading terms )为搜索条件搜索到的。这个语料库已经被按照不同级别的语言信息、语义信息进行标注。

  • 词性标注
  • 句法标注
  • 术语标注
  • 事件标注
  • 关系表述
  • 共指标注
  •  

    Part-of-speech (POS) tagging is an initial step of natural language processing which is often performed right after or together with tokenization. After tokenization, every token is assigned a POS label. The GENIA POS annotation generally follows the Penn Treebank POS tagging scheme. The following modifications of this scheme were introduced for the GENIA part-of-speech annotation:

    POS标注是自然语言处理的初始步骤,通常在分词之后或与分词同时进行。分词之后,每个词都被分配一个POS标签。GENIA POS标注大体上遵循滨州树库POS标签体系。为了使这个体系适用于GENIA,做了以下修改。,

    • The NNP and NNPS (proper name) tag is used only for the names of journals, authors, research institutes, and initials of patients. Especially, (discoverers') names in technical terms (e.g. Epstein-Barr virus, Southern blotting) are not tagged with NNP tags.
    • NNPNNPS(专有名词)标签仅用于期刊、作者、研究机构以及患者(?)首写字母。特别需要注意的是,专业术语中的名字不会被标记上NNP标签。
    • We tried to eliminate SYM tags as much as possible.
    • 我们尽可能的淘汰掉了SYM标签。

    See the annotation guideline for the detail. The abstracts are first tagged by the JunK tagger and then corrected by human annotators.

    可以从标注指南中看出更多细节。这些摘要先由JunK标记,然后由标注人员进行更正。

    Examples

     

    Corpus format

    语料库格式

    The corpus is available in two formats, both included in the package available for download below.

    这个语料库可以有以下两种格式,都包括在下边供下载的包中。

    • PTB-like format: The file contains one token/POS pair per line, and a "==========" line (ten equal signs) is put between sentences.
    • PTB-like格式:这个文件中每一行都有一对token/POS,以及每两句中间都有一个“==========”(10个等号)
    • "Merged" gpml format: The POS information is merged into GENIA corpus ver 3.02 using tag which surrounds the token, where the POS is represented as the value of "c" attribute.
    • “Merged” gpml 格式:POS信息被合并到GENIA语料库3.02版(用标签将分词括起来),POS被表示为C属性。

    In the merged format, but not in the PTB-like format, there are some tokens which are assigned "*" as POS. This occurs when a token is split by tags assigned by the annotators of original GENIA corpus. In such cases, the last fragment of a split token is assigned the original POS tag assigned by POS annotators, and other fragments are assigned "*", e.g. anti-IgM.

    在合并格式,并非PTB-like格式中,当一个分词被由原始GENIA语料库标注器给出的标签分割,它的POS就是“*”。这种情况下,一个分词的最后一段被POS标注器分配一个初始POS标签,而其他片段被标注为”*”。例如:anti-IgM.

    Documentation

    文献

    Annotation guidelines

    标注准则

    • Tateisi, Yuka and Jun'ichi Tsujii. GENIA Annotation Guidelines for Tokenization and POS tagging. Technical Report (TR-NLP-UT-2006-4). Tsujii Laboratory, University of Tokyo, 2006.

    Publications

    出版物

    Download

    下载

    Acknowledgments

    Yuka Tateisi: GENIA part-of-speech corpus annotation coordinator


    本文转自ZH奶酪博客园博客,原文链接:http://www.cnblogs.com/CheeseZH/archive/2012/10/28/2743209.html,如需转载请自行联系原作者

    相关文章
    |
    机器学习/深度学习 自然语言处理 达摩院
    Rethinking Information Extraction :信息抽取的现状与未来
    ​ ##引言 从计算到感知再到认知是业内学者都认同的人工智能技术发展路径。机器具备认知智能,进而实现推理、规划乃至联想和创作,在一定程度上需要一个充满知识的大脑,而信息抽取是获取知识的重要途径之一。 在具体的业务场景如搜索推荐,结构化的领域知识有利于实现细粒度文本理解,有利于实现精准的复杂问答,有利于
    6009 0
    pip镜像源大全及配置
    在中国使用pip时,可以配置国内镜像源来提高安装速度和稳定性。以下是一些常见的国内镜像源:
    16715 0
    |
    存储 缓存 NoSQL
    MySQL索引详解(一文搞懂)
    索引是对数据库表中一列或多列的值进行排序的一种结构,使用索引可快速访问数据库表中的特定信息。
    49194 17
    MySQL索引详解(一文搞懂)
    |
    XML 数据格式 Python
    python3实现域名查询和whois查询
    关键字:python3 域名查询 域名查询接口 whois查询原文:http://www.cnblogs.com/txw1958/archive/2012/08/31/python3-domain-whois.
    3532 0
    |
    存储 SQL 缓存
    Hadoop入门(一篇就够了)
    Hadoop入门(一篇就够了)
    24474 4
    Hadoop入门(一篇就够了)
    |
    5月前
    |
    机器学习/深度学习 存储 文字识别
    Llama 4上线魔搭社区!社区推理、微调实战教程来啦!
    近期,Meta推出了Llama 4系列的首批模型: Llama 4 Scout 和 Llama 4 Maverick。
    450 12
    |
    9月前
    |
    搜索推荐 物联网 PyTorch
    Qwen2.5-7B-Instruct Lora 微调
    本教程介绍如何基于Transformers和PEFT框架对Qwen2.5-7B-Instruct模型进行LoRA微调。
    10080 34
    Qwen2.5-7B-Instruct Lora 微调
    |
    8月前
    |
    机器学习/深度学习 自然语言处理 搜索推荐
    自注意力机制全解析:从原理到计算细节,一文尽览!
    自注意力机制(Self-Attention)最早可追溯至20世纪70年代的神经网络研究,但直到2017年Google Brain团队提出Transformer架构后才广泛应用于深度学习。它通过计算序列内部元素间的相关性,捕捉复杂依赖关系,并支持并行化训练,显著提升了处理长文本和序列数据的能力。相比传统的RNN、LSTM和GRU,自注意力机制在自然语言处理(NLP)、计算机视觉、语音识别及推荐系统等领域展现出卓越性能。其核心步骤包括生成查询(Q)、键(K)和值(V)向量,计算缩放点积注意力得分,应用Softmax归一化,以及加权求和生成输出。自注意力机制提高了模型的表达能力,带来了更精准的服务。
    10057 46
    |
    12月前
    |
    SQL 自然语言处理 安全
    2024 年 8 月暨 ACL 2024 57篇代码大模型论文精选
    2024年8月中旬,国际计算语言学大会ACL在泰国曼谷举行,展示了48篇代码大模型相关论文,包括24篇主会论文和24篇findings论文。主会论文涵盖XFT、WaveCoder、DolphCoder等创新方法,findings论文则探讨了代码注释增强、自动化程序修复等主题。此外,还额外整理了9篇8月最新代码大模型论文,涉及数据集合成、安全代码生成等多个前沿方向。欲了解更多,请访问我们的综述和GitHub项目。
    1196 4
    |
    自然语言处理 测试技术 人工智能
    Meta等最新研究:多token预测,提升大模型推理效率
    【6月更文挑战第2天】Meta等机构的研究人员提出了一种新的大型语言模型训练方法——多token预测,以提高样本效率和推理速度。该方法要求模型同时预测多个接下来的token,而非传统的单一token预测,从而减少局部模式依赖,提高模型的宏观决策能力。实验表明,这种方法在提升模型性能和推理速度方面效果显著,尤其在编程任务中表现出色。然而,多token预测可能需要更多计算资源,并不适用于所有NLP任务,其在自然语言处理领域的应用仍有待深入研究。论文链接:https://arxiv.org/abs/2404.19737
    494 7