欢迎来到人工智能的世界

欢迎来到迷人的人工智能（AI）世界。如果你曾好奇智能助手、图像生成器或自动化日常任务的工具是如何运作的，本指南就是为你准备的。它的目标是通俗地解释关键概念——从像大型语言模型（LLM）这样的基础知识，到视频生成等高级应用。人工智能是人类创造的最强大的工具之一。了解其基础知识是当今一项关键技能，它为无数的可能性打开了大门。本文档将帮助你建立坚实的基础，并激发你继续学习和实验的兴趣。让我们开始这段旅程吧。 1.

基础知识：什么是生成式AI？生成式AI的定义 (Gen AI) 生成式人工智能（Gen AI）是一种专注于创建新的、原创内容的AI类型。与仅分析或分类数据的传统AI不同，Gen AI能够生成文本（文章、电子邮件、代码）、图像和图形、声音和音乐，甚至视频。系统的核心：大型语言模型（LLM）大多数 Gen AI 系统核心是大型语言模型 (LLM)。它们可以被描述为在海量文本数据集（书籍、文章、网站）上通过机器学习过程训练的先进计算机程序。这一阶段被称为无监督学习，它允许模型独立学习语言的模式、依赖关系和结构。为了理解文本，模型利用了分词（tokenizacji）过程，该过程涉及将句子分解为称为 token 的更小单元（单词、词的一部分或标点符号）。这可以比作将句子分解成单个乐高积木——模型不是一次性看到整个句子，而是分析每个“积木”及其之间的关系，从而能够构建语法和逻辑上正确的回答。 LLM 的关键能力：总结：可快速摘要长篇、复杂的文档、报告或文章。解决问题：有助于生成创意想法、进行头脑风暴，并为复杂的难题寻找解决方案。翻译：能够快速将文本翻译成数十种语言，同时保持上下文的连贯性。编辑和分类：可自动进行语法校正、改变文本风格，并根据设定的标准对内容进行分类。替代方案：LLM 与 SLM 的比较除了强大的 LLM 之外，小型语言模型 (SLM) 也正越来越受欢迎。这些是参数较少的模型，为需要专业化和更高隐私性的任务提供了一个有趣的替代方案。SLM 的一个例子是 Bielik 模型，它在生成用于在线商店的产品转化描述等专业任务中表现出色。下面是对这两种方法的交互式比较。大型语言模型 (LLM) 小型语言模型 (SLM) 2.

如何与 AI 对话？提示工程基础知识与语言模型互动是一个迭代过程——它类似于持续的对话，在这个过程中，我们逐步完善我们的指令，以获得最佳结果。为了充分利用模型的潜力，我们需要学会有效地“与它们交谈”。优秀提示词的解剖学一个结构良好的提示词应包含三个关键要素：任务描述：精确说明模型需要做什么。上下文：额外的信息，对于正确理解问题和期望至关重要。示例：展示预期格式、风格或答案结构的示例。示例：好提示词 vs 差提示词 ❌ 差的提示词 “给我一些低于100兹罗提的礼物点子。” 模型不知道关键的上下文信息：孩子的年龄和性别、兴趣爱好或场合。因此，它会给出笼统的、可能不准确的建议。 ✅ 好的提示词 “给我一些为一位喜欢紫色、是马和独角兽迷的十岁女孩准备的生日礼物点子。我的预算是100兹罗提。” 由于精确的上下文，模型将生成更准确、更个性化的建议。基础提示工程技术 Zero-shot One-shot Few-shot Zero-shot 提示工程直接向模型提供指令，不包含任何示例。其关键优势是在简单任务中具有速度和简洁性。 One-shot 提示工程提供一个示例来说明预期的答案。这有助于模型更好地理解用户的意图和输出格式。 Few-shot 提示工程提供几个不同的示例，展示不同类型的答案变体。显著提高了答案的准确性和质量，尤其是在处理复杂任务时。提高性能的高级方法为了解决更复杂的难题并提高模型的推理质量，可以使用高级提示工程技术：思维链（Chain-of-Thought）：它涉及在提示中添加指令，要求模型“一步步”解决问题（例如，添加短语‘请逐步解决此问题’）。这迫使模型详细阐述其推理过程，从而显著提高其分析和逻辑能力。从最小到最大提示（Least-to-most）：这是一种将复杂问题分解为一系列更简单子问题，并按顺序解决的策略。思维线（Thread-of-Thought）：一种受人类认知过程启发的技术。它涉及系统地分割和分析扩展的上下文，从而实现知识的高效总结。利用情感刺激：在提示词中添加带有情感色彩的措辞（例如：“这对我很重要”）可以提高回复质量。然而，必须小心，因为这也可能会增加模型生成虚假信息的倾向。 3.

创作潜力：AI作为多媒体生成器这里的关键概念是多模态性 ——AI模型同时处理、理解和生成不同类型数据（即所谓的模态）的能力，例如文本、图像、音频或视频。因此，模型能够以更接近人类的方式感知世界，并能整合来自不同来源的信息。 🖼️ 图像生成（Text-to-Image）创建高质量图像的关键是详细的提示词，它应该精确地描述场景、风格（例如：照片级真实感、漫画风）、色彩搭配、技术参数（光照、构图）以及视角（例如：鸟瞰）。像 Midjourney 和 DALL-E 3 这样的领先工具可以从零开始创建图像。其他如 NanoBanana、Freepik 或 Pimento 等，则提供了编辑和修改现有图形的高级功能。 🎬 视频生成（Text-to-Video及更多）像 Veo (Google) 和 Sora (OpenAI) 这样的模型正在彻底改变视频制作。主要的生成方法包括文本转视频（text-to-video）、动画静态图像（image-to-video）以及修改现有录像（video-to-video）。一个专业的工具示例是 HeyGen，它能够创建可以说着不同语言的逼真视频虚拟形象。 🎵 音频和音乐生成（Text-to-Audio） ElevenLabs 平台提供了先进的功能：语音生成（Text-to-Speech）、声音克隆（需要同意）、保留原始音色的视频自动配音，以及音乐生成（Eleven Music）。另一个例子是 Google 的 MusicLM 模型，它可以根据自然语言描述创作出合适的音乐作品。 4.

日常工作中的人工智能：商业应用人工智能正与我们日常使用的工具越来越深度地集成，自动化任务并支持团队协作。办公套件中的人工智能：Google Workspace 的示例 Gemini 在 Google Workspace 中的应用是人工智能如何成为标准应用程序一部分的绝佳示例。无需打开单独的聊天窗口，您可以在 Docs、Sheets 或 Gmail 中直接使用 AI 帮助。Google Sheets 中的新公式 =AI() 特别引人注目，它允许执行复杂的操作，例如：数据分类： =AI("Czy to zespół koszykówki czy baseballa?", A2) 情感分析： =AI("Sklasyfikuj to zdanie jako pozytywne lub negatywne.", A2) 此外，Gemini 在 Google Meet 会议期间可以充当个人助理的角色，实时创建笔记和摘要。人工智能在协作与创新中的应用：Miro AI 示例 Miro AI 是一款旨在支持虚拟白板上的创造力和团队工作效率的工具。其主要功能包括自动生成图表和思维导图、根据关键词或情感快速分组数字便签，以及快速编辑文本（包括翻译和调整沟通语气）。 AI 代理：您的自主助手与执行特定、预定义任务的传统工具不同，智能体（agent）是一个目标导向的系统。它能够自主地将复杂的任务分解为更小的步骤，并灵活地调整以实现该目标。可以用航空类比来说明这种区别：任务导向的系统（autopilot）执行的是僵硬的指令（例如：“保持高度”），而目标导向的智能体（飞机驾驶舱的机长）接收的是一个目标（例如：“安全地运送乘客”），并自主规划路线和应对问题。这样一个专业智能体的例子是来自 Google Labs 的 Jules，它充当了程序员的伙伴角色，能够自主编写代码、设计测试并建议数据库结构。 5.

有意识地使用人工智能：风险、伦理和人类的角色人工智能是一种具有巨大潜力的技术，但它并非没有缺点。了解其局限性是有效和安全利用它的关键。最大的挑战：幻觉和缺乏时效性幻觉（Halucynacje）：这是模型生成看似可信且连贯，但实际上是虚假或捏造信息的倾向。发生这种情况是因为模型经过优化以生成概率最高的词序列，而不是验证事实。因此，从 AI 获取的任何信息都需要人工进行批判性验证。缺乏时效性： LLM模型的知识仅限于其训练的数据。这意味着它们无法获取在其训练结束之后发生的事件信息。现实世界锚定：RAG技术限制模型“幻觉”并确保其能够访问最新、特定数据的方法之一是检索增强生成（Retrieval-Augmented Generation, RAG）技术。它能够将模型的回答“锚定”到特定的、可信的知识库中（例如公司的内部文档）。RAG过程包含三个步骤： 1 索引化（向量化）文档被分割成片段，每个片段都被转换为向量并存储在向量数据库中。 → 2 检索（Retrieval）用户查询被转换为向量。系统搜索与该查询在语义上最接近的文本片段。 → 3 补充和生成找到的片段会附加到提示词中，LLM将根据提供的可靠信息生成答案。一个基于RAG工作的工具的实际例子是NotebookLM，它允许用户对上传的文档提出问题。数据安全与隐私使用公开的AI工具存在泄露敏感数据的真实风险。三星公司发生的一起著名事件，员工无意中泄露了机密源代码，就是痛苦的提醒。为了降低风险，人们采用的方法包括过滤输入和输出数据以及使用专门的分类器（例如Nvidia NeMo Guardrails）来检测潜在攻击。法律问题：AI与版权法根据波兰法律（《著作权法》第1条），作品必须是人类创造性活动的体现。这意味着由AI 100%生成的图像没有作者，可能不受版权保护。实际上，这意味着此类作品进入公共领域，允许任何人自由复制和使用。何时可以合法销售AI生成的图像？当它仅构成了一个基础，并加入了您自己的、创造性的贡献（例如通过手动编辑、构图），从而形成衍生作品时。当工具的规定（例如付费订阅）明确允许商业使用生成的内容时。人类不可替代的角色：共智能力 (Co-intelligence) AI不是取代人类的魔法实体，而是思维过程中的伙伴。要获得最佳结果，不能将完全控制权交给AI，而是必须基于共智能力（co-intelligence）的概念进行紧密合作。人类在三个关键领域是不可或缺的：构建查询、选择和验证答案，以及最终利用结果并承担相应的责任。您与人工智能的旅程才刚刚开始我们已经完成了本次介绍。我们从了解什么是生成式AI以及语言模型如何工作，到学习与AI进行有效沟通，再到发掘其创造性和商业潜力，走过了一段旅程。我们还了解了有意识地对待风险、伦理和安全的重要性。最重要的结论很简单：人工智能是一个强大的伙伴，它可以倍增我们的能力。然而，人类——凭借其好奇心、批判性思维和创造力——仍然是关键的决策者、分析师和创作者。本指南仅仅是第一步。真正的学习现在才开始。我们鼓励您继续实验、提问并有意识地利用所学到的工具。 ej infrastruktury, bez opłat za tokeny.' }, { criterion: '个性化', llm: '有限；定制困难且成本高昂。', slm: '可在自有、特定数据上进行精确微调（fine-tuning）。' }, { criterion: '能耗', llm: '高。', slm: '显著更低。' } ]; const llmDetailsContainer = document.getElementById('llm-details'); const slmDetailsContainer = document.getElementById('slm-details'); llmSlmData.forEach(item => { const llmDiv = document.createElement('div'); llmDiv.className = 'p-3 bg-gray-50 rounded-md'; llmDiv.innerHTML = ` ${item.criterion}: ${item.llm} `; llmDetailsContainer.appendChild(llmDiv); const slmDiv = document.createElement('div'); slmDiv.className = 'p-3 bg-gray-50 rounded-md'; slmDiv.innerHTML = ` ${item.criterion}: ${item.slm} `; slmDetailsContainer.appendChild(slmDiv); }); const promptTabs = document.querySelectorAll('.prompt-technique-tab'); const promptContents = document.querySelectorAll('.prompt-technique-content'); promptTabs.forEach(tab => { tab.addEventListener('click', () => { const target = tab.getAttribute('data-target'); promptTabs.forEach(t => t.classList.remove('active')); tab.classList.add('active'); promptContents.forEach(content => { if (content.id === target) { content.classList.remove('hidden'); } else { content.classList.add('hidden'); } }); }); }); });