deeppaper
    • Create new note
    • Create a note from template
      • Sharing URL Link copied
      • /edit
      • View mode
        • Edit mode
        • View mode
        • Book mode
        • Slide mode
        Edit mode View mode Book mode Slide mode
      • Customize slides
      • Note Permission
      • Read
        • Only me
        • Signed-in users
        • Everyone
        Only me Signed-in users Everyone
      • Write
        • Only me
        • Signed-in users
        • Everyone
        Only me Signed-in users Everyone
      • Engagement control Commenting, Suggest edit, Emoji Reply
      • Invitee
    • Publish Note

      Share your work with the world Congratulations! 🎉 Your note is out in the world Publish Note

      Your note will be visible on your profile and discoverable by anyone.
      Your note is now live.
      This note is visible on your profile and discoverable online.
      Everyone on the web can find and read all notes of this public team.
      See published notes
      Unpublish note
      Please check the box to agree to the Community Guidelines.
      View profile
    • Commenting
      Permission
      Disabled Forbidden Owners Signed-in users Everyone
    • Enable
    • Permission
      • Forbidden
      • Owners
      • Signed-in users
      • Everyone
    • Suggest edit
      Permission
      Disabled Forbidden Owners Signed-in users Everyone
    • Enable
    • Permission
      • Forbidden
      • Owners
      • Signed-in users
    • Emoji Reply
    • Enable
    • Versions and GitHub Sync
    • Note settings
    • Engagement control
    • Transfer ownership
    • Delete this note
    • Save as template
    • Insert from template
    • Import from
      • Dropbox
      • Google Drive
      • Gist
      • Clipboard
    • Export to
      • Dropbox
      • Google Drive
      • Gist
    • Download
      • Markdown
      • HTML
      • Raw HTML
Menu Note settings Sharing URL Create Help
Create Create new note Create a note from template
Menu
Options
Versions and GitHub Sync Engagement control Transfer ownership Delete this note
Import from
Dropbox Google Drive Gist Clipboard
Export to
Dropbox Google Drive Gist
Download
Markdown HTML Raw HTML
Back
Sharing URL Link copied
/edit
View mode
  • Edit mode
  • View mode
  • Book mode
  • Slide mode
Edit mode View mode Book mode Slide mode
Customize slides
Note Permission
Read
Only me
  • Only me
  • Signed-in users
  • Everyone
Only me Signed-in users Everyone
Write
Only me
  • Only me
  • Signed-in users
  • Everyone
Only me Signed-in users Everyone
Engagement control Commenting, Suggest edit, Emoji Reply
Invitee
Publish Note

Share your work with the world Congratulations! 🎉 Your note is out in the world Publish Note

Your note will be visible on your profile and discoverable by anyone.
Your note is now live.
This note is visible on your profile and discoverable online.
Everyone on the web can find and read all notes of this public team.
See published notes
Unpublish note
Please check the box to agree to the Community Guidelines.
View profile
Engagement control
Commenting
Permission
Disabled Forbidden Owners Signed-in users Everyone
Enable
Permission
  • Forbidden
  • Owners
  • Signed-in users
  • Everyone
Suggest edit
Permission
Disabled Forbidden Owners Signed-in users Everyone
Enable
Permission
  • Forbidden
  • Owners
  • Signed-in users
Emoji Reply
Enable
Import from Dropbox Google Drive Gist Clipboard
   owned this note    owned this note      
Published Linked with GitHub
Subscribed
  • Any changes
    Be notified of any changes
  • Mention me
    Be notified of mention me
  • Unsubscribe
Subscribe
# Genome modeling and design across all domains of life with Evo 2 利用 Evo 2 在所有生命领域进行基因组建模和设计 ## AI 解析 ## Genome modeling and design across all domains of life with Evo 2 ### 📝 研究概要 Evo 2 是一个基于 9.3 万亿 DNA 碱基对训练的生物学基础模型,它在基因组建模和设计方面取得了显著进展,实现了跨生命域的序列预测和生成。 ### ⭐ 研究亮点 * **大规模训练和长上下文窗口:** Evo 2 在大规模数据集上训练,拥有 100 万 token 的超长上下文窗口,能够捕捉基因组中的长程依赖关系。 * **强大的预测能力:** Evo 能够准确预测基因变异的功能影响,无需针对特定任务进行微调,并在非编码变异致病性预测方面达到领先水平。 * **可控的基因组生成:** Evo 2 能够生成具有自然性和连贯性的基因组序列,并通过推理时搜索实现对表观基因组结构的可控生成。 ## 深度解析 ### 📚 研究背景 * **理论意义:** 基因组蕴含着生命的复杂信息,理解基因组的复杂性对于生物学研究至关重要。 * **现实意义:** 基因组测序、合成和编辑工具的进步推动了生物学研究,而智能地设计新的生物系统需要深入理解基因组。 * **研究目标:** 构建一个能够跨越所有生命域,对基因组进行建模和设计的通用人工智能模型。 ### 🔬 研究方法 * **研究设计:** 训练生物学基础模型 Evo 2,使其具备预测基因变异功能影响和生成基因组序列的能力。 * **数据来源:** OpenGenome2 数据集,包含来自细菌、古菌、真核生物和噬菌体的 9.3 万亿 DNA 碱基对。 * **分析方法:** * **模型训练:** 使用 StripedHyena 2 架构,在 7B 和 40B 参数规模下进行训练,采用两阶段训练策略(预训练和中期训练)。 * **预测评估:** 评估 Evo 2 在突变效应预测、临床变异效应预测等任务上的性能。 * **可解释性分析:** 使用稀疏自编码器 (SAE) 揭示模型学习到的生物学特征。 * **基因组生成:** 使用 Evo 2 生成线粒体、原核生物和真核生物基因组序列,并评估其自然性和连贯性。 * **可控生成:** 结合表观基因组状态模型,通过推理时搜索控制基因组生成。 ### 📊 研究发现 #### 实证结果 * **发现一:** Evo 2 能够准确预测基因变异的功能影响,包括非编码致病突变和临床显著的 BRCA1 变异。 * **发现二:** Evo 2 自主学习了多种生物学特征,包括外显子-内含子边界、转录因子结合位点、蛋白质结构元件和前噬菌体基因组区域。 * **发现三:** Evo 2 能够生成具有自然性和连贯性的基因组序列,并通过推理时搜索实现对表观基因组结构的可控生成。 #### 理论贡献 * **贡献点一:** 证明了大规模基因组数据训练的生物学基础模型能够学习到基因组的复杂规律,并具备强大的预测和生成能力。 * **贡献点二:** 提出了基于推理时搜索的可控基因组生成方法,为基因组设计提供了新的思路。 #### 实践启示 * **启示一:** Evo 2 可以用于加速基因功能注释、疾病相关变异的识别和药物靶点的发现。 * **启示二:** Evo 2 可以用于设计具有特定功能的合成生物系统,例如可控的表观基因组结构。 ### 🔍 研究局限 * **局限一:** Evo 2 在某些特定任务上的性能可能不如针对特定任务进行优化的模型。 * **局限二:** Evo 2 的可解释性分析仍有局限性,需要进一步研究如何更好地理解模型学习到的生物学知识。 * **未来研究方向:** * 探索如何将 Evo 2 与其他生物学数据(例如表观基因组和转录组数据)相结合,构建更全面的细胞模型。 * 研究如何利用 Evo 2 设计更复杂的生物系统,例如人工细胞和基因线路。 * 进一步提高 Evo 2 的可解释性,揭示基因组的深层规律。 ## 学术对话 ### 💡 理论延伸 * **与现有研究的关系:** 本研究建立在先前 Evo 模型的基础上,并扩展到真核生物基因组,实现了跨生命域的基因组建模和设计。 * **理论框架的拓展:** 本研究提出了基于推理时搜索的可控基因组生成方法,为基因组设计提供了新的理论框架。 * **新的研究方向:** 将 Evo 2 与其他生物学数据相结合,构建更全面的细胞模型,并探索如何利用 Evo 2 设计更复杂的生物系统。 ### ❓ 核心问答 #### Q1: Evo 2 在非编码变异致病性预测方面有哪些优势? Evo 2 在非编码变异致病性预测方面的主要优势在于其大规模训练和长上下文窗口,使其能够捕捉基因组中的长程依赖关系,并学习到非编码区域的复杂规律。此外,Evo 2 无需针对特定任务进行微调,即可实现准确的预测,这表明其具有强大的泛化能力。 #### Q2: 如何理解 Evo 2 通过推理时搜索实现对表观基因组结构的可控生成? Evo 2 通过推理时搜索实现对表观基因组结构的可控生成,是指在生成基因组序列的过程中,结合表观基因组状态模型,根据目标表观基因组结构对生成的序列进行评估和筛选,从而生成具有特定表观基因组结构的序列。这种方法类似于在生成过程中引入了反馈机制,使得生成的序列能够更好地满足设计目标。 #### Q3: Evo 2 的开放性对生物学研究有哪些潜在影响? Evo 2 的完全开放(包括模型参数、训练代码、推理代码和训练数据)将极大地促进生物学研究的进展。研究人员可以利用 Evo 2 进行基因组建模和设计,加速基因功能注释、疾病相关变异的识别和药物靶点的发现。此外,Evo 2 的开放性也为研究人员提供了深入研究模型内部机制的机会,从而更好地理解基因组的复杂规律。 ## 📌 总结评价 Evo 2 是一个具有里程碑意义的生物学基础模型,它在基因组建模和设计方面取得了显著进展,实现了跨生命域的序列预测和生成。Evo 2 的开放性将极大地促进生物学研究的进展,并为基因组设计提供新的思路。 ## 摘要三问 ### 研究问题 * 核心问题:如何构建一个能够理解和生成跨越所有生命领域基因组序列的通用生物学基础模型? * 研究目标: * 开发一个在包含大量基因组数据的语料库上训练的生物学基础模型(Evo 2)。 * 评估该模型在基因变异功能影响预测、基因组序列生成方面的能力。 * 通过机制可解释性分析,揭示模型自主学习到的生物学特征。 * 开源模型参数、训练代码、推理代码和训练数据,以促进生物学领域的探索和设计。 ### 采用方法 * **数据收集与整理:** * 构建包含细菌、古菌、真核生物和噬菌体基因组的OpenGenome2数据集,总计9.3万亿个DNA碱基对。 * 对数据进行清洗、去冗余和增强,以提高模型训练的效率和效果。 * **模型训练:** * 使用StripedHyena 2架构,训练7B和40B参数的Evo 2模型。 * 采用两阶段训练策略: * 预训练阶段:使用较短的上下文窗口(8,192 tokens),侧重于学习功能性遗传元件。 * 中期训练阶段:扩展上下文窗口至1百万tokens,学习基因组元件之间的长距离关系。 * 使用重加权的交叉熵损失函数,降低重复区域的损失贡献。 * **模型评估:** * **预测任务:** * 评估模型在预测蛋白质、RNA和生物体适应度方面突变效应的能力。 * 评估模型在预测人类临床变异效应(如ClinVar中的致病变异)方面的能力。 * 使用深度突变扫描(DMS)数据,将模型预测与实验测量结果进行比较。 * **生成任务:** * 评估模型在生成线粒体、原核生物和真核生物基因组序列方面的能力。 * 通过推理时搜索,引导模型生成具有可控表观遗传结构的序列。 * **机制可解释性分析:** * 使用稀疏自编码器(SAE)分解模型表征,识别与生物学特征(如外显子-内含子边界、转录因子结合位点)相对应的潜在维度。 ### 关键结果 * **强大的预测能力:** * Evo 2能够准确预测基因变异的功能影响,包括非编码致病突变和临床相关的BRCA1变异,无需针对特定任务进行微调。 * 在预测非编码变异的致病性方面,Evo 2达到了最先进的性能。 * 基于Evo 2嵌入的监督模型在BRCA1变异分类任务中取得了最先进的性能。 * **自主学习生物学特征:** * Evo 2自主学习了多种生物学特征,包括外显子-内含子边界、转录因子结合位点、蛋白质结构元件和前噬菌体基因组区域。 * **强大的生成能力:** * Evo 2能够生成线粒体、原核生物和真核生物基因组尺度的序列,其自然性和连贯性优于以往的方法。 * 通过推理时搜索,Evo 2能够可控地生成表观遗传结构,并实现了生物学中首次推理时扩展结果。 * **开源发布:** * Evo 2模型参数、训练代码、推理代码和OpenGenome2数据集已完全开源,为研究社区提供了宝贵的资源。 总而言之,该研究成功构建了一个强大的生物学基础模型Evo 2,它在基因组建模和设计方面表现出卓越的性能,并为生物学研究开辟了新的可能性。

Import from clipboard

Paste your markdown or webpage here...

Advanced permission required

Your current role can only read. Ask the system administrator to acquire write and comment permission.

This team is disabled

Sorry, this team is disabled. You can't edit this note.

This note is locked

Sorry, only owner can edit this note.

Reach the limit

Sorry, you've reached the max length this note can be.
Please reduce the content or divide it to more notes, thank you!

Import from Gist

Import from Snippet

or

Export to Snippet

Are you sure?

Do you really want to delete this note?
All users will lose their connection.

Create a note from template

Create a note from template

Oops...
This template has been removed or transferred.
Upgrade
All
  • All
  • Team
No template.

Create a template

Upgrade

Delete template

Do you really want to delete this template?
Turn this template into a regular note and keep its content, versions, and comments.

This page need refresh

You have an incompatible client version.
Refresh to update.
New version available!
See releases notes here
Refresh to enjoy new features.
Your user state has changed.
Refresh to load new user state.

Sign in

Forgot password

or

By clicking below, you agree to our terms of service.

Sign in via Facebook Sign in via Twitter Sign in via GitHub Sign in via Dropbox Sign in with Wallet
Wallet ( )
Connect another wallet

New to HackMD? Sign up

Help

  • English
  • 中文
  • Français
  • Deutsch
  • 日本語
  • Español
  • Català
  • Ελληνικά
  • Português
  • italiano
  • Türkçe
  • Русский
  • Nederlands
  • hrvatski jezik
  • język polski
  • Українська
  • हिन्दी
  • svenska
  • Esperanto
  • dansk

Documents

Help & Tutorial

How to use Book mode

Slide Example

API Docs

Edit in VSCode

Install browser extension

Contacts

Feedback

Discord

Send us email

Resources

Releases

Pricing

Blog

Policy

Terms

Privacy

Cheatsheet

Syntax Example Reference
# Header Header 基本排版
- Unordered List
  • Unordered List
1. Ordered List
  1. Ordered List
- [ ] Todo List
  • Todo List
> Blockquote
Blockquote
**Bold font** Bold font
*Italics font* Italics font
~~Strikethrough~~ Strikethrough
19^th^ 19th
H~2~O H2O
++Inserted text++ Inserted text
==Marked text== Marked text
[link text](https:// "title") Link
![image alt](https:// "title") Image
`Code` Code 在筆記中貼入程式碼
```javascript
var i = 0;
```
var i = 0;
:smile: :smile: Emoji list
{%youtube youtube_id %} Externals
$L^aT_eX$ LaTeX
:::info
This is a alert area.
:::

This is a alert area.

Versions and GitHub Sync
Get Full History Access

  • Edit version name
  • Delete

revision author avatar     named on  

More Less

Note content is identical to the latest version.
Compare
    Choose a version
    No search result
    Version not found
Sign in to link this note to GitHub
Learn more
This note is not linked with GitHub
 

Feedback

Submission failed, please try again

Thanks for your support.

On a scale of 0-10, how likely is it that you would recommend HackMD to your friends, family or business associates?

Please give us some advice and help us improve HackMD.

 

Thanks for your feedback

Remove version name

Do you want to remove this version name and description?

Transfer ownership

Transfer to
    Warning: is a public team. If you transfer note to this team, everyone on the web can find and read this note.

      Link with GitHub

      Please authorize HackMD on GitHub
      • Please sign in to GitHub and install the HackMD app on your GitHub repo.
      • HackMD links with GitHub through a GitHub App. You can choose which repo to install our App.
      Learn more  Sign in to GitHub

      Push the note to GitHub Push to GitHub Pull a file from GitHub

        Authorize again
       

      Choose which file to push to

      Select repo
      Refresh Authorize more repos
      Select branch
      Select file
      Select branch
      Choose version(s) to push
      • Save a new version and push
      • Choose from existing versions
      Include title and tags
      Available push count

      Pull from GitHub

       
      File from GitHub
      File from HackMD

      GitHub Link Settings

      File linked

      Linked by
      File path
      Last synced branch
      Available push count

      Danger Zone

      Unlink
      You will no longer receive notification when GitHub file changes after unlink.

      Syncing

      Push failed

      Push successfully