如是我闻 | 生成式人工智能

生成式图像模型

生成式语言模型

模型

OpenAI/GPT
Claude
bloomchat, 可以商用 [GitHub]
falcon40B
- apache 2.0 许可证，可商用[huggingface]
- gpt3 的性能，更少的运算资源，其中Falcon 7B可以跑在苹果Mac上 [推特]
TigerBot: 一款国产自研的多语言任务大模型，70亿参数和1800亿参数两个版本 [GitHub]
QLoRA: 单个GPU，ChatGPT 99%的能力，消费级GPU微调12个小时就可以达到97%的ChatGPT水平，4B就可以保持16B精度的效果 [论文] [GitHub]
MBT 30B: 开源商用模型为数不多的选择里出现了一个比Falcon 40B更好的模型 [Twitter]
GLM-6B & GLM2-6B: 智谱AI发布，对学术研究完全开放，并且在完成企业登记获得授权后，允许免费商业使用。[Twitter][微信公众号@GLM大模型]
Llama 2: Meta开源大语言模型Llama 2，可免费商用. [微信介绍]
- Jim Fan 评论 [推特，翻译]
- 很多团队几乎都达成共识， RLHF 不重要，SFT 就够了。现在 Llama2 的论文说 RLHF 非常非常重要。[推特]
- LLaMA-2-7B-32K, context为32K的模型 [推特][Twitter]

基于模型，直接可用的产品

OpenAI/GPT
- ChatGPT
  - 2023年6月13日，GPT提供了函数调用，让ChatGPT来自己调用函数。[Twitter][OpenAI][用法 Twitter@宝玉]
- ChatGPT - Code Interpreter
  - 介绍 [推特][YouTube]
  - 《ChatGPT 探索：Code Interpreter 高级指南》[微信@浮之静]
  - 源码可能被套出。[Twitter]
  - 对 code interpreter 的逆向工程 [Twitter][Mem]
- OpenAI API
  - 2023年8月23日，OpenAI 开放了 GPT-3.5 的微调的API [推特]
- OpenAI on Azure 内置了一个内容过滤器 [推特1][推特2]
- forefront: 完全免费 GPT-4 的工具 [登录]，大概基于 gptfree-ts [GitHub]
- BratGPT: ChatGPT的激进版本。[官网]
- SmartStudy: 提供文本文档，创建10个问题的小测验。[官网]
- XrayGPT: 通过给定的 X 光片来促进围绕胸部 X 光片的自动化分析的研究。[GitHub]
- FinGPT: 类似BloomBerg的开源方案，RLHF 和 Lora 的低秩技术 [Twitter]
微软
- BingAI
  - 本地部署方案 [推特][GitHub]
- VsCode Copilot
- Office 365 Copilot: 每月每名用户30美元. [verge][微信]
Claude+
- 例子：阅读多份行业报告 [推特]
Llama
- llama2.ai: 一个基于 llama 2 的聊天机器人，非官方。[网站]
- WizardCoder 34B based on Code Llama 写代码 [推特]
WebGLM: 清华开源的带网络搜索功能的 GLM 实现 [GitHub]
mendable: 根据开发文档进行问答 [官网]
阅读 PDF 文档
- Humata.ai
- explainpaper
- ChatPDF
- [对比] Claude2支持超长上下文，摘要信息量更大，更适合长文提炼。ChatDOC 具有页码溯源、表格解析、原文定位功能，数据找得准，也方便二次验证，能够限制大语言的幻觉问题。
Obsidian-copliot: 快速获取文字的核心观点
视频内容梗概
- Glarity: 浏览器插件，基于ChatGPT和字幕生成Youtube摘要，20秒看完梗概 [Twitter]
- summarize-tech: 5分钟了解长视频的要点. [Twitter]
webpilot: 可联网可读网页链接的插件 Webpilot 推出的 Chrome 版插件 [chrome]

模型教程、评论、二次开发

一般性原理
- 《Prompt 编写模式》[phodal]
- 《LLM+Embedding构建问答系统的局限性及优化方案》[知乎]
- 基于检索的 LM，外挂一个数据库用来检索。[推特][GitHub.io]
- 一篇泼冷水的论文 [ACL Anthology]
- 即刻出的Prompt调试工具。[Twitter][官网]
GPT
- GPT best practice [OpenAI]
- Andrew Ng 吴恩达 & Isa Fulford from OpenAI 《Build system with #ChatGPT API》[推特@金田達也]
  - 借助 CoT 的思路，翻译字幕，返回正确的 JSON 格式 [推特]
  - 同样的加入了CoT（Chain of Though）的Prompt，如果让GPT打印出来步骤，效果非常好，但是如果不让GPT打印（省点token，以及更容易解析），那么GPT就会偷懒 [Twitter1][Twitter2]
- 熊猫吃短信是 Twitter@威力狈开发的垃圾短信过滤工具。将其与 GPT 结合的一些讨论
  - Twitter@威力狈：尝试了下用 ChatGPT 自动标注数据，效果太差了。
  - Twitter@宝玉：通常如果我写的话，会做一些小调整
  - Twitter@IIInoki：是的，感觉八爷用 API 用得有点糙……就只是很简单的 prompt 达到的效果都还不错
- 《ChatGPT 越过山丘之后，再来谈谈 LLM 应用方向》[橘子汽水铺]
LangChain:
- 官方教程 [推特][streamlit]
- 一个使用 LangChain 和 GPT Index 的教程 [leanpub, 收费][Pocket]
- LangChain for LLM Application Development 基于LangChain的大语言模型应用开发 [YouTube]
  - 基于Embedding的文档问答。stuff, map reduce, refine, map rerank [Twitter@宝玉]
- Chanin Nantasenamat: LangChain tutorial #1: Build an LLM-powered app in 18 lines of code [streamlit]
- 把一篇很长的 PDF 内容喂给 ChatGPT，然后向他提问
  - 纯 JS 开源工具推荐 [推特]
  - 用 LangChain 六七行代码就可以搞定了 [LangChain]
AutoChain
- 介绍 [推特][GitHub]
- 《我为什么放弃了 LangChain》[推特][微信] 推友提出的 AutoChain 替代方案 [推特]
OpenDAN: 为各类 AI 模块提供运行环境，并提供它们之间的互操作性协议。可创建诸如律师、医生、教师，甚至男女朋友等角色 [GitHub]
“视频语音↔文字”任务相关
- 指定视频URL，识别文字，翻译 [GitHub]
- WhisperX: 按照单词对齐时间戳，生成的字幕都是完整的句子 [GitHub]。[Twitter@宝玉] 写了一个可以根据 YouTube Url 识别 YouTube 字幕的 Jupyter Notebook
- audiocraft: audio processing and generation with deep learning. [GitHub]
- [推特] 小作文
- yt-dlp 一行命令下载视频字幕的工具，不需 puppeteer 无头浏览器 [推特][GitHub]
ChatGPT + AI agent + ScholarAI + Noteable 写的小综述 [链接失效]
MusicGen: 将文本和旋律转化为完整乐曲 [Twitter][ReadHub]
MMS: 一个声音模型 [HuggingFace]
FRVR Forge: AI-Powered End-to-End Game Creation [Twitter][官网]

开发平台

Runpod: 租用 GPU 跑模型并创建 Serverless API 一站式服务，最低只要0.2刀/hr。[官网]

杂项

2023年5月27日、28日，OpenAI 使用 Sentry 审计工具封禁来自中国的用户，解决方案：
- 路由器 Clash 规则 [推特]
- 改用 Azure OpenAI service [推特]
- Cloudflare WARP [左耳朵]

生成式图像模型

2023年5月31日，Adobe 添加人工智能相关功能 generative fill。[推特]

配置要求极低，连Win掌机都能跑，但是不能断网。[推特]
填充将横屏的视频转换为竖屏。[推特]

MidJourney

在提示词中添加相机镜头信息。[推特]
zoom [Twitter]

StableDiffusion

Eric Fu: 训练指南. [Coding Husky]
文字或者符号融合生成图片 [Twitter][微信]

StyleDrop: Google 基于 MUSE 的样式迁移 transformer [推特][GitHub.io]

Redream: 从视频到二次元动画 [推特][GitHub]

Runway Gen-2: 文本生成视频和图片生成视频, 4 秒钟 [推特][需注册]

一个 AI 视频解决方案，来自南洋理工，代码尚未开源 [Twitter] [GitHub.io][Twitter2][arxiv]

AWPortrait1.1: 图像生成 [Twitter][LibLibai]

Anything AI: 可以取代照片中的任何物体。免费，不需要注册. [官网]

PixelLab: 草图创建2D图像. [官网]

本文收录于以下合集：