多头注意力

Logistic Regression: A Beginner's Guide

Logistic Regression is a statistical method used to analyze the relationship between a categorical dependent variable and one or more independent variables. It is widely used in machine learning and predictive modeling for binary classification problems. In this article, we will discuss the basics of logistic regression and its mathematical formulation. Binary Classification Binary classification is a type of classification problem in which the output variable can take only two possible values, usually represented as 0 or 1....

Linear Regression: Understanding the Basics

Linear regression is a widely-used statistical method for modeling and predicting the relationship between two variables. In essence, it is a technique for finding the best-fitting line through a set of data points. This article provides a beginner-friendly introduction to linear regression and its underlying concepts. What is Linear Regression? Linear regression is a statistical method that models the relationship between a dependent variable (also known as the response variable) and one or more independent variables (also known as predictors)....

基础量化策略

以下是一些基本的量化投资策略，它们使用数学模型和算法分析数据并做出投资决策：价值投资：该策略涉及寻找低市盈率（P/E）或低市净率（P/B）的被低估股票。价值投资者相信市场有时会低估好公司，以折扣购买这些股票可能会带来长期收益。成长投资：该策略涉及投资于具有高增长潜力的公司，其收益增长率或其他指标证明。成长投资者相信这些公司将继续以比整个市场更快的速度增长，从而在长期内导致股价上涨。动量投资：该策略涉及购买最近表现良好的股票，出售最近表现差的股票。动量投资者相信股票价格的趋势在短期内将继续，从而导致盈利交易。统计套利：该策略涉及使用统计模型来识别相关证券的错误定价，然后在这些错误定价上进行交易。例如，统计套利者可能寻找两个价格高度相关的股票在价格上暂时发生分歧的情况，然后打赌价格最终会再次收敛。风险平价：该策略涉及将投资资本分配到不同的资产类别中，以平衡风险。风险平价投资者相信在不同风险档案的资产类别之间进行分散投资（如股票、债券和商品）可以带来比仅投资于股票或债券更好的风险调整回报。品质投资：该策略涉及投资于拥有强大资产负债表、稳定收益和低负债股本比率的高品质公司。品质投资者相信这些公司更有可能经受住经济衰退并在长期内产生稳定的回报。这些只是一些量化投资策略的例子。每种策略都有其优点和缺点，投资者在选择要跟随的策略之前应仔细考虑其投资目标和风险承受能力。

美联储加息周期中一般什么行业的股票会表现更好

美联储加息周期中一般什么行业的股票会表现更好一般而言，在美联储加息周期中表现良好的行业是那些对利率敏感性较低的行业。这些行业包括：医疗保健：无论经济情况如何，人们都需要医疗服务，因此医疗保健公司通常对利率变化不太敏感。消费品：生产食品、家居产品和个人护理用品等消费品的公司在利率上涨期间也往往表现良好，因为人们会继续购买这些基本物品，不受经济条件的影响。技术：技术公司往往具有高增长潜力，并且不太依赖借贷或利率，因此对利率上涨不太敏感。公用事业：提供电力和水等基本服务的公司也不太受利率上涨的影响，因为这些服务是不可或缺的，无论经济条件如何。另一方面，在利率上涨周期中表现不佳的行业是那些对利率敏感性较高的行业。这些行业包括：金融：银行和其他金融机构在利率上涨周期中通常会遭受损失，因为他们的借贷成本增加，从而减少了利润。房地产：更高的利率使抵押贷款更加昂贵，降低了房地产的需求，可能导致房价下跌。能源：能源公司通常需要大量资本来投资基础设施和勘探，而利率上升可能会增加他们的借贷成本，降低利润。需要注意的是，股票表现受到许多因素的影响，利率只是其中之一。因此，在做出任何投资决策之前进行全面的研究和分析是至关重要的。加息幅度和市场市盈率或价格中枢间有没有量化关系有证据表明，利率上升与市场市盈率或股价水平之间存在量化关系，尽管这种关系很复杂，可能取决于各种因素。一般而言，当利率上升时，未来收益和现金流的现值可能会降低，从而导致市场市盈率和股价下降。然而，其他因素也会影响股价，例如公司特定因素、经济增长前景和市场情绪。一个常用的衡量利率与股价之间关系的指标是盈利收益率，它是市盈率的倒数。盈利收益率衡量了公司股价相对于其收益的收益率，并可与政府债券收益率进行比较。当利率上升时，债券收益率往往会增加，使其相对于股票更具吸引力，这可能导致股价下降。总的来说，虽然利率上升与市场市盈率或股价水平之间可能存在量化关系，但这种关系很复杂，可能取决于许多因素。在做出任何投资决策之前进行全面的研究和分析是至关重要的。当从加息周期转为降息周期时，通常什么行业的股票会率先上涨当利率上升周期转变为降息周期时，对利率敏感度最高的行业往往会最先表现良好。这些行业包括：金融业：银行和金融机构往往受益于较低的利率，因为它们可以以更便宜的利率借入资金，然后以更高的利率贷出资金，从而增加其利润率。房地产业：房地产公司和房屋建筑商可以从较低的利率中受益，因为它可以使人们更容易和更实惠地购买房屋，从而增加房屋需求。消费周期股：这些是销售非必需品和服务的公司，如零售、旅游和娱乐公司。较低的利率可以提振消费支出，从而使这些公司受益。公用事业：公用事业公司往往受益于较低的利率，因为它们往往有较高的债务，较低的利率可以降低其借款成本。需要注意的是，这些行业的表现还可能取决于其他因素，如整体市场情况、经济增长和公司特定因素。投资者在做出任何投资决策之前，应进行全面的研究和分析。

大规模语言模型的评价方法

上一篇文章介绍了大模型是用什么数据训练的，这一篇文章重点来看大模型的评价方法。Chatgpt这轮出圈很大原因是对话这种评价方式非常直观，普通大众就可以从对话质量看出来现在的模型比之前的"人工智障"要强很多。但真正开发大模型肯定不能用这种方式，不仅效率低、价格高，还存在不小的主观因素。这篇文章就来总结一下大模型的评价方式。还是先来看LLaMA论文里使用的评价指标。LLaMA里一共使用了**20种数据集（或任务）**来评估和对比模型。这些任务可以分为两大设定：零样本任务和少样本任务，涵盖以下几个大类常识推断闭卷问答阅读理解数学推理代码生成大规模多任务语言理解下面一一来看。常识推断这个任务用了8个数据集，分别是BoolQ、PIQA、SIQA、HellaSwag、WinoGrande、ARC easy, ARC challenge和OpenBookQA。不同数据集有不同的形式，包括填空、威诺格拉德模式挑战（英语：Winograd Schema Challenge，缩写WSC）、多选问答。这些数据集在评价中都属于零样本，就是让模型通过预训练来直接回答问题。一个威诺格拉德模式的例子为：“ 市议会拒绝给示威者颁发许可，因为他们[担心/宣扬]暴力。 ” 当这句陈述中使用“担心”一词时，前面的“他们”指的是市议会。而当使用“宣扬”一词时，“他们”所指的则变成了示威者。人类通过常识可以很简单地看出两种情况下“他们”所指分别为何，但对于机器而言这个问题则十分困难。 {: .align-center style=“width:80%”} 不同模型常识推断结果比较。这种常识问题现在的模型基本都能对个六成以上。 {: .align-caption style=“text-align:center;font-size:smaller”} 闭卷问答这个任务包括两个数据集Natural Questions和TriviaQA。所谓闭卷，是相对于数据集原来的设定来说的。已Natural Questions为例，原来的设定是模型可以访问相关维基百科文本，然后根据百科内容回答问题。然而在评价大语言模型的时候，就不给看这个维基页面了。闭卷问答包括zero shot和few shot两种设定。zero shot很好理解，跟上面的常识推断很像，下面是论文附录里few shot的例子，实际上就是列几个问答对作为context。我目前还不太懂这种无关问答对对模型回答问题有什么帮助。 Context → Answer these questions: Q: Who sang who wants to be a millionaire in high society? A: Frank Sinatra Q: Who wrote the book the origin of species? A: Target -> Charles Darwin 阅读理解阅读理解和前面提到的开卷问答有一点像。只是常见的阅读理解数据集用于支撑问题回答的背景材料比较短（相比于NQ里的维基页面）。在LLaMA论文里，使用的是RACE数据集，这个数据集对于做过阅读理解的朋友一定不陌生，是为初高中中文学生设计的英语阅读理解题。...

如何使用ChatGPT算命

可能是网站slogan：AI算命，朋克养生的关系，最近我看google search console后台总是有很多"Chatgpt算命"这个查询导致的网站展现。既然大家有这个需求，我就实践SEO里面的方法，上网搜索了一下如何使用chatgpt算命，总结在这个文章里。好多chatgpt算命的查询 {: .align-caption style=“text-align:center;font-size:smaller”} 基本上，这要用到chatgpt的**“角色扮演”**功能，让它站在算命者的角度回答你的问题。先从英文开始，英文里算命先生叫做fortune teller，那么我们可以这么问chatgpt Act like a coffee fortune teller, I can see a cat shape in the corner of the cup, what is its meaning? 翻译成中文就是：像个算命先生一样回答我，我在杯子的角落看到了一个猫的形状，这意味着什么？英文版的回答是 The cat shape in the corner of your cup is a sign of good luck and protection. It is a reminder to stay alert and to be aware of any potential danger or obstacles that may arise in your life....

大规模语言模型的基石数据集

最近AI大火，作为一名稍微有点赶不上趟的NLP工程师，感觉有很多课需要补。恰好昨天Meta发了新的大模型论文，浏览了一下发现很适合作为补课的切入点。今天这部分是关于预训练使用的数据集，是重中之重，说数据是当代AI的基石一点也不为过。GPT3用的数据其实没有公开，Meta这次论文里提到的应该算是开源模型里一个最全的版本。他们使用的数据如下表所示，我们一一来看一下。 Dataset Sampling prop. Epochs Disk size CommonCrawl 67.0% 1.10 3.3 TB C4 15.0% 1.06 783 GB Github 4.5% 0.64 328 GB Wikipedia 4.5% 2.45 83 GB Books 4.5% 2.23 85 GB ArXiv 2.5% 1.06 92 GB StackExchange 2.0% 1.03 78 GB CommonCrawl 占比最大的数据集，他们的网站是https://commoncrawl.org/。我感觉这真是一个伟大的项目，7年时间爬了超多的互联网网页，涵盖了40种语言。 CommonCrawl网站截图 {: .align-caption style=“text-align:center;font-size:smaller”} 根据他们博客的最新数据，2023年二月版的数据包含了400TB的数据（纯文本的数据是9个多tb），三十多亿个网页。 The crawl archive for January/February 2023 is now available! The data was crawled January 26 – February 9 and contains 3....

ChatGPT未来会拥有自我情感和思维吗？

首先批评一下知乎，类似的问题翻来覆去提。感觉和上次的这个问题很像：https://www.zhihu.com/answer/2869775692 我尝试问了下GPT以下问题，它的回答还挺乐观，哈哈。我：什么是情感？ GPT：情感是一种心理状态，它指的是一种强烈的感情，如欢乐、悲伤、焦虑、愤怒、害怕、爱、厌恶等。它们可以由个人的生活经历、社会环境、文化和道德价值观等因素引起。我：语言模型，例如GPT是否具有情感？ GPT：不具有情感。GPT（Generative Pre-trained Transformer）是一种预训练的自然语言处理模型，它可以帮助机器理解和生成自然语言，但它本身并不具有情感。我：为什么说语言模型不具有情感？能说得具体一些吗？ GPT：语言模型本身并不具有情感，因为它们只是一种机器学习模型，它们可以帮助机器理解和生成自然语言，但不能感受和理解情感。语言模型的输出仅仅反映了输入的语义，它不能表达情感，也不能理解和识别情感。我：未来有可能让语言模型具有情感吗？ GPT：是的，未来有可能让语言模型具有情感。随着技术的发展，许多机器学习技术和深度学习技术已经可以用来识别和理解情感，而语言模型也可以通过这些技术来学习情感，从而具有情感。就像GPT自己回答的一样，语言模型目前是没有情感的，本质上还是对文本之间概率分布的刻画。但因为人是有情感和思维的，对语言模型表现出来的一些能力，会不由自主地认为它具有情感或者思维。所以从“我要我觉得，不要你觉得”的角度，这个问题没啥讨论的意义。一千个观众眼里有一千个GPT。在上面那个回答里，我还举了两个思维实验来说明这个观点。但评论区网友上来就给我一顿喷。讲真我当时心理是有点小波澜，但我现在学乖了，多利用GPT来回答问题，被网友骂成狗也没啥心理负担。我个人认为，按照目前的技术方向，未来也无法获得思维和情感。但这不是个经济的想法。应该像GPT一样，大声说会就完了，然后再说一堆车轱辘话。毕竟未来的事，谁知道呢。我在知乎的原回答

ChatGpt能成为恋爱大师吗？

我认为能也不能。我问GPT：什么是恋爱大师？恋爱大师具有哪些特点和能力？ GPT回答：恋爱大师是一种专业的恋爱咨询师，专门帮助人们解决恋爱问题。恋爱大师通过提供心理咨询、情感指导和婚姻咨询等服务，帮助人们解决恋爱中的问题，提高恋爱关系的健康水平。恋爱大师具有较强的心理学知识和专业能力，能够从恋爱关系的心理学角度出发，从客观的角度分析恋爱关系中出现的问题，并给出有效的解决方案。让我们再来试试他能不能“分析恋爱关系中出现的问题，并给出有效的解决方案”。我问GPT：我的女朋友老是迟到，跟她沟通过几次都没有效果，现在说她她还会生气，我该怎么办？ GPT回答：首先，你要明确你的期望，并且要清楚地告诉她，你希望她能够准时到达。然后，你可以给她一些实际的激励，比如说，如果她能够准时到达，你会给她一个小惊喜。再者，你可以尝试一些不同的沟通方式，比如用短信或者电话来提醒她，或者在约定的时间前几分钟来接她。最后，你可以给她一些支持，告诉她你理解她的情况，并且希望她能够改变，但也要表达出你的期望。我再次追问：那万一我这么做之后她还是没有改变呢？我要和她分手吗？ GPT回答：如果你采取了上述措施之后，她仍然没有改变，你可以再次和她沟通，让她明白你的期望，并且表达出你的失望。如果她仍然不能改变，你可以考虑是否要分手，但是你也可以尝试一些其他的方式，比如让她参加一些时间管理的课程，或者帮助她制定一些有助于准时到达的计划。对上面的回答，作为用户我是会满意的，给出了一些具有可行性的方法。这种人际沟通中的问题往往是有最佳或者较佳实践的。这方面博览群书的GPT可以给出一些不错的建议，对没有经验的小年轻可以有不小的积极作用。但感情的事又很复杂，而对感情的处理方式是没有标准答案的。如果上面那个爱迟到的女朋友就是屡教不改你要怎么办呢？你可以选择扬长而去，也可以选择包容承受。但毫无疑问，你考虑的肯定不只是迟到这个问题。她的性格、颜值、知识、财富、你们相处的每个瞬间都可能影响你最后的决定。但这么多的信息，目前甚至是无法通过prompt传递给GPT模型的（GPT模型只能处理一定长度的输入）。这个层面看，它跟人类心理咨询师还是有很大的差距。 It has a token limit, which I believe is 4097. The total number of tokens used is equal to your message and GPT’s response combined. You can see how many tokens your prompt uses here: https://beta.openai.com/tokenizer 我在知乎的原回答

SEO手记

最近在看一些SEO相关的材料，比较主要的是一本名为《SEO实战密码》的书，虽然看了不少但又好像没学到什么。于是我决定用一个小网站，故事101，来进行实践，这个网站是之前做的讲故事小程序的延续，希望通过这个网站能为小程序吸引到更多的用户。网站优化 meta信息补充完整，title中增加类别词，找到了一个很棒的插件next seo 在尽可能多的地方插入超链接，例如模仿维基百科在内容中插入关键词的超链接因为内容都是爬的，准备借助算法来提升内容原创性外链建设在这个博客站先加上了一个链接