Anahita Bhiwandiwalla and Dina Suehiro在Spark Summit 2017上做了主题为《Distributed End-to-End Drug Similarity Analytics and Visualization Workflow》的演讲,就 Analytics and Visualization Workflow的相似性比较及在spark中的应用和举例分析等进行了深入的分享。
https://yq.aliyun.com/download/448?spm=a2c4e.11154804.0.0.10a76a79mhx3cu
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。
Anahita Bhiwandiwalla和Dina Suehiro在Spark Summit 2017上的演讲《Distributed End-to-End Drug Similarity Analytics and Visualization Workflow》聚焦于分布式端到端的药物相似性分析及可视化工作流程。这个主题对于那些在生物信息学、药物研发以及大数据处理领域的人来说非常有价值,尤其是在利用Apache Spark进行大规模数据分析时。
在他们的演讲中,可能涵盖了以下几个关键点:
药物相似性分析:他们可能会介绍如何利用化学信息学和机器学习技术来评估不同药物分子之间的结构或功能相似性。这对于快速识别潜在的新药候选、重新定位现有药物或理解药物作用机制至关重要。
分布式计算与Apache Spark:鉴于数据量庞大且计算复杂度高,使用Apache Spark这样的分布式计算框架可以加速药物相似性分析过程。他们可能分享了如何有效利用Spark的RDDs(弹性分布式数据集)、DataFrame/Dataset API以及MLlib(Spark的机器学习库)来处理和分析大规模数据集。
端到端工作流程:从数据预处理、特征提取、模型训练到结果可视化,他们可能详细介绍了整个工作流程中的每个步骤,并强调了在分布式环境下保持数据一致性和高效通信的重要性。
可视化:数据可视化是理解和传达分析结果的关键。他们或许展示了如何利用工具如D3.js、Tableau或者Spark自带的可视化工具来展示药物相似性网络、热图或其他复杂的图形,帮助研究人员直观地探索药物间的关系。
案例研究与应用实例:演讲中可能包含实际案例分析,展示这一工作流程在具体药物发现项目中的应用,包括如何通过这种分析方法发现新的治疗靶点、优化药物设计或是预测药物副作用等。
如果您对这个话题感兴趣,可以通过提供的链接下载相关资料进一步了解。阿里云作为提供全面云计算服务的平台,也支持基于Apache Spark的大数据处理和机器学习任务,例如通过阿里云E-MapReduce服务,用户可以轻松部署和管理Spark集群,实现类似药物相似性分析这样的大规模数据处理和分析应用。