Review

小模型 Phi 的发展之路

今天微软发布了 Phi3 模型，3.8B 的小体量做到了 Mixtral-8x7B 一样的效果，在社区引起了不小的轰动。 fuyao 老师直呼不能李姐我前段时间曾经试过finetune Phi2 模型，效果说实话并不是很理想，默认 context 只有 2k 更是让他难以胜任很多生成式的任务。今天发布的 Phi3 context 做到了 4k，还有长上下文的 128k 版本，至少在这块已经补上了短板。其实 Phi 家族一直是 LLM 领域蛮有个性的一套模型，今天也趁机梳理了一下他们的发展脉络。我们倒过去看，先总结一下今天发的最新版 Phi3。Phi-3 Technical Report: A Highly Capable Language Model Locally on Your Phone的几个重点如下：模型尺寸有3.8B，7B，14B，3.8B 性能已经不错，量化后 1.8G 在 iPhone16 上一秒可以出 20 个 token 3.3T token 训练，更大的模型用了4.5T。这个比 llama3 的 15T 少的多训练分两阶段。第一阶段用高质量网络数据，第二阶段用更强力过滤后的一阶段子集加 GPT 合成数据。第一阶段学语言能力和常识，第二阶段主要学逻辑推理能力。除了语言模型还发不了 SFT+DPO 的版本 Phi3 的性能确实能打 Phi2 是23 年 12 月发布，只有一个 2.7B 的版本，没有对应的技术报告。从 Model Card 上可以看到主要是按 Phi1....

生成式模型的奇葩应用：生成式检索

最近在学习一个奇特的技术，叫做生成式检索。生成式检索是一种利用生成式语言模型的全新信息检索方法。不同于依赖外部索引的传统方法，生成式检索利用单个强大的模型来处理查询和文档语料库。在这个注重推理能力，讲agent的年代，生成式检索却走到了让模型“死记硬背”的另一个极端。生成式检索用简单的话来说，就是对于输入查询（query），让模型直接生成出语料库里相关文章的id，是的，你没有看错，是直接生成id！当然，这就会涉及到一个很重要的问题——id长啥样？当前的主流做法有几种：原子id（atomic id），即每篇文章用一个独立的token来表示。这实际上是挂羊头卖狗肉，说是生成式，但因为每个文章都有独立token，所以等价于一个分类问题。朴素id（naive id），即id是一个字符串，这个字符串没什么特别的，就是id常用的形式，可能是12345这样的数字串，也可能是apdkcr这样的hash串。然后模型在推理阶段是用自己的词表生成出这个id字符串。因为id没有明确含义，这种做法着实是挺难为模型的，相当于问一个人“为人民服务”出现在毛选的第几卷第几本第几页第几行第几个字。语义id（semantic id）。和2一样，这里的id还是一个字符串，不同的是这个id是要包含语义信息的。这个大类有很多细分的做法，我列两种比较有代表性的。直接生成URL。是论文Large Language Models are Built-in Autoregressive Search Engines里的做法。他们讨论的语料是维基百科，页面的url包含非常明确的页面主题信息。这种做法是比较符合大家对生成式模型的直觉的，生成目标也不局限在URL，tag、category都可以使用。层次聚类。该领域经典论文Transformer Memory as a Differentiable Search Index的做法。是将大的语料库用embedding进行层次聚类，直到簇的大小符合要求。这样就把语料库转换成了一棵检索树，文章的id就是从根到叶子的一条路径。虽然还是数字id，但相比于一个自增或者随机的数已经结构化了很多。层次聚类示意图说完了id的问题，另一个重要问题是怎么让模型记住这么多id?方法也很土很暴力，就是搞一堆(query, docid) pair 让模型学就完了。如果这种数据不够，那有一些方法合成，比较典型的有： DAQ(Document as query):通常是在文章里取一截内容做query。 D2Q(Document to query):再搞一个模型根据内容生成一些可以回答的问题。显然D2Q搞出来的数据更有可能接近使用场景的真实数据，所以效果好很多。D2Q其实不是什么新方法，四五年前就有人在IR任务里拿来增强模型。这两种方法都可以产生大量的训练数据，让模型充分死记硬背。 Doc2Query不是什么新鲜玩意儿最后看下这种方法的效果和问题。根据这篇论文的数据，在语料库不大（100k左右）的情况下这个方法还是表现不错的，可以超过bm25和经典的dual encoder+ann。但不得不说，这个成本可不低，100k文档的训练数据可能是4-5M条，要跑一会。 Corpus小的时候generative retrieval表现还不错但当检索范围变大，这种方法的效果下降非常明显。这个结论也不意外，背几首古诗和背新华字典的难度肯定不同。很快就差于经典的召回方法了。 Corpus变大模型性能迅速下降另一个明显的问题是死记硬背导致的新文档更新问题。当语料库里增加新的文档之后，模型要重新训练，速度慢不说，效果还可能有各种问题。也有不少文章专门也就这个问题。以上就是对近期学习的一个简单总结。总的来说这个东西学术味道浓了一些，实用价值在现阶段应该还不大。但确实难说后面会不会有跟LLM结合的点。更多相关内容可以看这个Github Repo。

OpenAI 公布声音克隆新技术，仅需 15 秒音频样本即可模仿任何说话者，将带来哪些影响？

很多答主都提到了，从技术角度来看，声音克隆技术并不新，别的不说，去年大火一阵的 AI 孙燕姿应该大家都还有印象。「AI 孙燕姿」火遍全网，随着技术的发展，未来 AI 歌手会成为主流吗？这一技术还可能应用到哪些场景？用孙燕姿的声音唱各种不同的歌曲就是声音克隆，而且难度还更好，因为要考虑音乐的节奏、音调、音色等因素。去年的效果已经很不错了，否则也不会出圈。更值得注意的是，AI 孙燕姿并不是某个大厂搞出来的，而是好多爱好者自己 DIY 出来的。可见，这个东西在技术上真的没有什么大的突破。如果大家自己想玩玩 tts，我很推荐这个库，各种功能都有，自然也包括声音克隆。但开源的音色跟闭源确实没法比。 https://github.com/coqui-ai/TTS 但 OpenAI 做这个我觉得对他们自己还是很有意义的。毫无疑问，OpenAI 是要把自己打造成 AI 能力的首选，现在靠着 GPT 和 DALLE系列，和还未上线但已爆火的 Sora已经大概给自己树立这个形象了。但前面都是文本和视觉领域，Sora 的视频也是没有声音的。音频这块一直还没有起来，他家的 tts 功能我是用过的，我感觉体验很不错，虽然还没有老牌厂商例如微软那么精细的控制功能，但真的很简单易用，效果也好。这波声音克隆自然是比单纯 tts 更有可玩性，是更容易吸引用户的功能点。以后，OpenAI 的 API key 应该是一个像样的应用开发者的必备之物了。

来自社区的Gemma微调踩坑记录

越来越多人发现Gemma 难以 finetuned的现象了。今天在 Twitter 逛就看到好几个相关帖子。下面这个老哥是 Dolphin 和 Samantha作者，应该算有经验的开发者，直接搞了一个 200 多的 loss 出来。 add new token引发的惨剧后面他们发现可能是新加 token 导致的问题。finetune 时如果新加 token 必须训练 embedding，对于 lora微调来说默认是不训练这组参数的。老哥把新 token 去掉之后正常了。如果是像我一样的全参微调压根不会碰到这个问题，Lora 看起来还是在社区里占据了更主流的位置。 Teknium 也是 finetune 达人，上来loss 也很高，但后面慢慢降下去了，原因也是他加了新 token。另一个add new token引发的惨剧回帖里有个老哥（之前是 OpenAI 员工哦）说可能是 pretrain 数据里有 Instruct 数据，顺带提了一下 Phi-2 和 Qwen 1.5。当然这都只是猜测，语料里有啥已经是大模型界最深的秘密。不过这种做法确实让人讨厌，基座就好好做通用语料训练，别搞指令数据。这么一搞下游训练容易遇到麻烦。我之前试过 Qwen 和 Baichuan，虽然他们的 benchmark 成绩都很好，但finetuned 的表现确实不如 llama2 好。Qwen 1.5最近倒是看到有不错的微调版本在 leaderboard 上排名不错。这老哥还提供了一组超参数说值得一试。max_grad_norm 在 HF trainer 里默认就是 1，adam beta2 默认是 0.999，降低到 0.95 会让梯度的变化更敏锐一些。至于 epsilon，我一直感觉没什么可调的，1e-8 和这里的 1e-5 应该差别不大。...

地表最强7b模型？我的Gemma体验报告

昨天，也就是2024年2月22号，一早上起来就看到国内的AI公众号就热闹非凡，Google发布了他们的开源大语言模型Gemma，上Twitter也看到Jeff Dean卖力地再宣传自家的新产品：几条推文展现了好多令人兴奋的技术指标。在上班前我先简单翻了翻技术报告，让我比较感兴趣的是256k的词表大小和6T的预训练语料。这俩改动加起来我估计应该性能确实会有一些提升。最近Andrej Karpathy在YouTube上搞了个很火的讲Tokenizer的课程，应该也从侧面体现tokenizer和词表对现在的LLM性能之重要。我用Tokenizer Playground测试了一下LLama2和Gemma对同样文本的tokenize结果，可以发现Gemma的token数少了大概10%。当然，我测试的文本非常基础，全是ASCII字符，差距应该不那么明显，到了代码或数学场景（Gemma是做了digit分词的，数学应该强），差距应该就会显现出来。 LLama tokenizer 的结果 Gemma tokenizer结果我最近喜欢在面试的时候问别人vocab大小对于LLM性能的影响，从序列长度讲当然是词表越大越好，因为token序列会短，不仅生成时的步数会少，每一步O(N^2)的self attention也会有不少的提速。但output layer和embedding table都会变大，所以最终的速度变化不太好说。这个Gemma模型说是2B和7B，但其实参数量是偏大许多的，7B版本的参数加起来已经8B多了，谷歌这次为了“挽尊”特意把表格分成了embedding parameter和non-embedding parameter，确实略显诡异。 Gemma的参数量结构的设计也比较奇怪，intermediate hidden size特别的大，和”同参数量“llama比起来层数有所降低。我特意整理了下表，大家可以更清楚地看出两者的变化。我这个表是从huggingface权重repo的config.json来的，feedforward dim竟然和tech report不一样。这次Gemma还在每一层放了两个normalization，激活函数也和llama不一样，用了GELU。 Gemma-7b Llama2-7b vocab size 256000 32000 hidden size 3072 4096 embedding params 786M 131M layers 28 32 attention heads 16 32 head dim 256 128 intermediate size 24576 11008 activation func GELU SwiGLU 技术报告里列了一大堆让人眼前一亮的指标，基本意思就是7b可以干llama-13b。但现在我感觉这些指标和实际好不好用关系并不是那么大，看看就好。当然此时的我预期Gemma7b应该还是要好过llama2 7b的。 Gemma的指标很亮眼到了办公室赶紧就开始在我们的数据上finetune了一下。选的7b版本，huggingface已经贴心地把它整合进各种库里，transformers升级到4.38以上就行。我先试了下llama2-13b一样的超参，发现eval loss差了不少，而且新版transformers会计算grad norm，这个值在训练初期有很大的波动，一度达到上百的量级，感觉训练不是特别成功。后面我又换用了一组比较小的学习率，比之前有所提升，但eval loss还是和llama13b有差距。我的几组实验，bf是全参微调，bl是lora 不过不同模型特别是词表量级相差如此巨大的模型间eval loss不太好比较（直观感觉是词表大的loss水平应该要高一些），只好用一些业务指标来比。我用一些测例推理了一下模型，发现学习或者推理过程应该是出了些问题。虽然eval loss在合理范围，但生成的文本基本不可用。而且，Gemma7b的训练显存消耗比llama2-13b还大，同样的deepspeed配置我只能跑原来一半大小的batch。Gemma虽说参数约为8b，但肯定比13b小不少，出现这种情况我也比较费解，欢迎大佬点拨。歌手大佬也发现了一些开源版的实现问题总体感觉目前的Gemma版本有一些问题，看看过几天社区会不会发现并修复它。也希望真的能有个能超过llama2-13b的7b模型可以用。当然，我最希望的还是llama3赶紧出来吧😂

令人吃惊的M2芯片

最近拿到了一台14寸的MacBook Pro，搭载了M2 Pro芯片，内存为16GB。昨天心血来潮，在上面尝试训练了一个神经网络，感触挺深的。我训练的是一个BERT-base模型，当年也算是个”大模型“，但在现在看起来就是个小不点。训练数据不多，大概一万多条文本，平均长度应该接近模型的最大输入长度。这个任务在我的A6000显卡上跑得飞快，不到十分钟就可以跑完三个epoch的训练。我一开始移植代码到MacBook上的时候没有注意到Huggingface Trainer有个控制是否使用M系芯片神经处理的开关，所以用的是CPU，进度条显示训练完要15个小时。后来查阅文档，打开开关后，跑完训练的时间大幅下降到了1小时左右，提速了十几倍！(测试不严谨，但提速非常大是肯定的) 别人M1 Ultra的测试结果也有明显提速不过遗憾的是，目前pytorch并不支持在M系列芯片上使用半精度数据类型，导致训练的显存消耗略大，batchsize上不去。但GitHub上有个帖子说M2其实只支持bf16的，估计不久的将来会有PR来支持这一特性，那又可以有一个速度的大提升。前几天苹果发布了缝合版处理器M2 Ultra，碰巧知乎上有个付费问题，我就去了解了一下相关知识。目前苹果的统一内存架构是在CPU和GPU之间共享内存，而且内存带宽极大。4090的内存带宽是1T/s，而M2 Ultra达到了800GB/s。M2 pro的带宽也有200GB/s，而M2 max是400GB/s。统一内存架构在大模型时代感觉有极大的优势，我查阅了一下目前NV主流的移动显卡，显存大多只有8GB，而M2 pro笔记本的起跳内存就有16GB，32GB版本再花3000块就能买到。即使在不支持半精度的情况下，32GB的统一内存也足够塞下7B的模型，已经有很多东西可以玩了。京东上一个24GB的4090显卡也要一万多，加上七七八八配个台式机估计两万块也是要的。但是一个32GB版本的MacBook Pro也只要19000，简直太划算了！高考刚刚结束，有不少同学或者家长估计都在挑选新的电脑、手机等设备。在不差钱的情况下，我强烈建议搞一个MacBook，教育优惠可以打八五折，你可以尝试很多普通笔记本电脑没法带给你的东西。

Vicuna初体验

今天深入体验了下Vicuna,以下是我的takeaways: 指令跟随的能力跟ChatGPT有点差距。最典型的就是下面的身份设定任务都经常失败（如下图）。模型会非常倔强地回复你他是Vicuna，是LMSYS训练的模型。针对上面的问题我看了下代码，发现他们专门搞了好几个问身份的语料来训练模型图片，真的是把身份感刻在了骨子里。 fastchat迭代挺快的，今天试了下他们新加的API功能。整个使用体验几乎和openai的client一模一样，学习成本很低。但目前文档没怎么跟上，有时需要看看代码。例如我在异步环境里用chatCompletion.create失败，看代码才知道要用acreate。试了下Vicuna-7b的embedding，能力非常一般，而且维度4096太大了，那算相似度可真费劲，而且在检索任务上被768维的Instructor Embedding秒杀了。看了下lmsys的成员，好家伙，几乎全是中国人，感觉人才这块可能对于中文大模型不会是短板。使用下来总体还可以，下面这个例子和GPT的能力确实差不多。最后一个图是我提供些knowledge给它后的回答，措辞稍微不达预期。

大江大海1949

大江大海1949 {: .align-caption style=“text-align:center;font-size:smaller”} 就是上面的这本书，在大陆是买不到，甚至搜不到的。书商也很精明，在封面上印着“全球畅销经典作品，至今未能在中国大陆出版”来增加你对它的好奇心。其实早在多年前我就读过几页电子版，这次去台湾又在诚品书店遇见，便买了一本纸质书。书是从讲述龙应台他们家如何辗转入台开始，通过描绘不同人物的故事和生平来展现那个特殊历史时期，更重要的可能是如书的扉页中写的向所有被时代践踏、侮辱、伤害的人致敬断断续续花了一个月才读完全书，一些人和事已经记不清楚了，但有几点确实给我比较强烈的冲击。其一是历史的残酷。不管是从台湾山区被征到东南亚成为狱卒的青年，还是从河南一路往南逃亡的少年，抑或在内战中被自己的同胞兄弟杀死的军人。身处那个时代的人们在历史的巨浪面前，真的就如蝼蚁一般，没有选择的权利，只能随波逐流。但反过来思考，历史往往又是被几个人左右。不管是日军将领，还是国共两党的高层，因为他们的诉求和命令，成千上万的平民百姓便被无故卷入到历史的漩涡中。高层虽然也是成王败寇，但在这个过程中最受伤的还是底层百姓，因为底层往往就只有你死我活的残酷争斗，生死关头，哪还管什么对错，可能连人类的尊严都可以置之不理了。但历史又有公正的一面，我觉得龙应台的这本书对待这个问题却不够坦诚。书里有许多对解放军的描述，例如让手无寸铁的民兵打头阵与国民党军作战，有一些表述让我这个大陆人读起来不太舒服。我以前对解放战争时期我军如何能以弱胜强还不太清楚，但看了这本海峡对面的书我更加确定，胜利正是因为人民站在解放军这边，因为我党描绘的蓝图更加能打动民众的心。与残酷的历史形成鲜明对比的当然是人的光辉，这也是龙应台一向擅长的部分。印象最深的是那五千个逃亡的少年和他们的老师，一路风餐露宿却还靠一本《古文观止》传承文化，我是真的为我们民族身上的这种韧性感动了。还有那些为了自己的理想信念甘愿付出生命的人，那些身处邪恶阵营却保有良知的人等等。我也相信不管再黑暗的时代，都会有点点温暖人心的光，而这些星星之火，终可燎原。最后说一点稍不切题的内容。虽然身处和平年代，但中国大地上这几年涌起的浪潮其实也不小。就拿最简单的房子来做例子。多少人因为早买房、多买房甚至炒房就积累了大量的财富。而这些巨量的财富对于后来者来说就变成了沉重的负担。试想你的房子在一年之内暴涨了几百万，你又怎么还会把心思放在只能带来微薄收入的工作上呢。听说是最近北京的房价跌了，几个月的时间财富就能缩水上百万。但不管是涨价还是跌价，刺激太多，人总会变得狂躁，人生的悲欢也容易被放大，甚至扭曲。

台湾游记之感悟

总体印象对台湾的总体印象是非常不错的，非常温馨。例如在台北，除了便利店和屈臣氏，最多的当属咖啡店、烘培坊和小吃店了，街道中洋溢着咖啡香、面包香和各种其他食物的气味。城市的规划也很合理，巷子多而不窄，行人走车都没有问题。沿街大多是骑楼，可以为行人遮阳挡雨，这在台湾真的非常重要。厦门中山路一带的老城区也是这种骑楼，但新建的房子却丢掉了这个优良的传统，大多一块地建一个小区或是一个独栋的写字楼。没有沿街的店面，更不要提骑楼了。城市成了一个个孤岛，哪里去找温馨的气氛？另一处给我震撼很大的地方是花莲。在夜市恰逢他们的嘉年华，舞台非常酷炫，场地中有凳子，不需要票可以自由进出，组织也非常专业，现场秩序很好。虽然表演嘉宾一个都不认识，但现场观众和艺人都很嗨，互动很好，我们也被打动。这个嘉年华已经办了十五届了，已成为花莲的一张名片。但震撼我的并不是演出本身，而是当地政府在开展文化活动方面展现出来的活力和能力。里面没有太多政治的成分，真正能让当地甚至周边的居民乐意参与，并且喜闻乐见，玩嗨玩好。我觉得这种思路大陆官员基本上是没有的。更厉害的是花莲的人口只有三十多万，在大陆绝对算是一个小城了，而我们的小城中又有多少文化活动，群众的参与度又是多少？花莲嘉年华现场 {: .align-caption style=“text-align:center;font-size:smaller”} 台湾公民的素质普遍较高，还常常能遇见一些动人的细节。例如在台湾，高铁或者景点中出售的盒饭、饮料和城市里的价格是一样的，除了兰屿等离岛会有一个公开的涨价幅度。这在大陆是不可想象的，甚至连铁道部这样的国家队都是迫于压力才推出15元的高铁盒饭。在台湾路边的奶茶店，自带杯子可以打八折；停车场几乎都有孕妇专用车位；不允许带宠物的商店会专门标注导盲犬可以入内等等。店员都很和气，谢谢常挂嘴边；民宿老板对游客也很信任，入住退房几乎都是自助的。还有一件事非常奇怪，台湾的路边垃圾桶实在太少了，但马路却很干净。花莲同住一间民宿的东北老大爷感叹“这里的文明程度大陆再过20年也赶不上”。导盲犬贴纸 {: .align-caption style=“text-align:center;font-size:smaller”} 旅途中接触了一些台湾的年轻人，他们的一些选择在我看起来也挺有趣。例如在兰屿民宿有个从台北来打工换宿的小姑娘。跟老板联系好后自己一个人就来了，一待一个月，帮老板打扫卫生，接待住客，老板提供食宿；闲的时候就自己在岛上玩。她并不是一个特例，在岛上的饭店、民宿很多这样的年轻人。有些人干脆长期待在小镇，例如前面提到恒春的波波厨房，就是几个对美食有追求的年轻人一起经营的。近几年这种事情在大陆也越来越多，我觉得是好的趋势。我们还在各地遇到许多为了办一场活动筹款的小学和中学生，他们在大街上立着募捐箱，然后用自己的才艺表演吸引路人。在花莲的海边有一对小姐弟，打架子鼓，除了募捐他们的牌子上还写着Facebook粉丝达到多少时爸爸就会带他们去韩国，希望大家点赞。我觉得这些小朋友都好棒，他们这么小就敢于追逐自己的梦想，也用自己的实际行动积累资源，一步一步达成目标。这种自主、自立的精神我觉得在大陆是比较缺乏的。小朋友们的募捐活动 {: .align-caption style=“text-align:center;font-size:smaller”} 食住行说起台湾的美食，据说高晓松都控制不住自己，但整个体验下来并没有太多让我惊喜的地方。先说夜市。我们去了各地的多个夜市，夜市卖的食物大多是煎炸烤的做法，烤肉、蚵仔煎、炸鱿鱼、炸鸡排、烤猪蹄等等。既不太符合我的饮食倾向，似乎大陆也见得多了，没什么新鲜感。还有一些比较有特色的例如大肠包小肠、鱼蛋、淡水阿给等等也没有特别打动我。我印象最深的是在花莲吃的春卷，当时铺位里是几个年轻人，一次做十来个，面饼一字排开，放上不同口味的馅料，卷饼手法娴熟。夜市、小吃店都不乏年轻经营者的身影，这好像和大陆有一些差别。春卷 {: .align-caption style=“text-align:center;font-size:smaller”} 然后说日常餐饮，有米饭类几大金刚：肉燥饭，卤肉饭，封肉饭，排骨饭，可以搭配各类汤；还有各色牛肉面，担仔面，米线等等。街边店比较便宜，大概80台币以内就可以吃饱，但有字号的店铺就贵很多了。例如台北永康街的牛肉面卖130台币一碗，但我觉得除了肉多吃起来还没有街边65一碗的牛肉面好吃。此行的住宿除了垦丁、兰屿和花莲是民宿外，其他都是旅馆，都是在agoda定的，平均下来每晚标间大概300左右。总体住宿体验还不错，但感觉agoda并没有提供最优惠的价格，若准备时间充足可多做功课对比一下各大订房平台。行在台湾也是比较方便的。对于城市间转移，在西岸可以选择高铁，快速宽敞，东岸只能选择台铁。台铁有不同的车型，速度不同。需要注意的是高铁站往往离城区较远，一般还需要乘接驳车或打车。但我们在台中出了高铁站之后乘接驳车是免费的，令人感动。若在城市里，台北有发达的捷运系统，相当于地铁。台北地铁给我的印象实在太好了，车身比北京地铁宽至少百分之三十，车站也很宽敞漂亮。结合台北不到三百万的人口，你应该可以想象乘车体验有多好，即使在上下班高峰也丝毫没有拥挤的情况。公交车也类似，坐了几次公交基本都有座位，而且台北公交的座位实在太舒服了。打车比较贵，但体验很好，台湾的的士都保养的很棒，车体干净到发亮，都是皮座椅，不会像大陆一样包裹肮脏的布垫，中控台也不会安装各种毫无设计感的仪器。在台南和高雄我们还体验了台湾的共享单车，既有政府运营的有桩车，也有类似ofo的OBike，体验都不错，非常适合用于除台北外的其他城市游览。有桩车虽然要在指定地点借还，但会提供车锁，非常人性化。说到这强烈建议到台湾之后买一张当地手机卡，例如租单车这种服务都是需要短信验证码的。台南有桩共享单车，可变速，车头有车锁 {: .align-caption style=“text-align:center;font-size:smaller”} 在台湾唯一比较麻烦的是大部分消费都得用现金完成，便利店中只有全家可以用支付宝。游玩时请保证身上有足够的台币。台湾与大陆台湾毕竟只是个小岛，自身人口少，市场体量小。近些年随着大陆工业的发展，逐渐丧失原有优势，四小龙的经济活力已大不如前。小英上台以后陆客大量减少，旅游业又受到重创，我们在台湾十几天都没有遇到大规模的旅游团。从经济上来说，依靠大陆已经是她几乎唯一的选择。在情感上可能岛内人民分歧比较大。兰屿的民宿老板刚见面就说自己祖籍南京，后来聊天又跟我们讲了更多家里的故事。他的父亲今年93岁了，直到前几年他奶奶去世，每年还去南京探母。他奶奶去世之后，父亲年纪也大了，走不动了，换他的三叔每年从南京飞到台湾探望他的父亲，他的三叔今年也有86岁了。老板说，大陆他陪父亲去过很多次，也是有感情的，“统一了最好”。他又指着他还年幼的儿子说，台湾已经没什么发展，有能力的年轻人都流向海外，若他儿子留在台湾，他更加希望两岸交好，“万一有一天真的打起来，难道我要看着我的儿子上前线跟大陆打吗？有什么好打？难道不可笑吗？”而对于没有现实顾虑的年轻人，似乎较少深入思考这些问题，当然也没有和他们深入地交流，印象很深的是有被问到过“你们真的认为台湾是中国的一部分吗？” 结语十四天的台湾之行结束，我马上将参加工作，踏上新的人生旅程。在大陆天天讲发展，人人逐名利的背景下，台湾就像一个世外桃源。桃源之中虽无摄人心魄的壮美之景，但它却可以让人放松、平静。龙应台在《大江大海一九四九》的卷首写道正因为，他们在跌倒流血的地方，重新低头播种，我们这一代，得以在和平中，天真而开阔地长大抛开政治分歧不谈，台湾人民在这个弹丸小岛上辛勤耕耘的精神和对待生活认真的态度是值得我们学习的。衷心希望海峡两岸都越来越好。

台湾游记之行程

乘着毕业，终于把期待了很久的台湾之行落地了。本来光哥想在台北看一场周日的话剧，因此我们把行程定成了14天。虽然话剧没看成，但是十四天给了我们充足的时间环岛。第一天 7.4 我们是7月四日上午8点多厦门飞台北的飞机，但出门不顺，直到十一点多才起飞。到了台北已是下午一点，一路来到住所放下行李便开始执行我们半天的游玩计划。我们住台北车站，附近就有不少景点，当天下午是一路向西。首先步行来到了总督府（现总统府），卫兵不多，比较有意思的是有一个老人家庄严站在总统府前，面朝外侧举起自己的一只手像在向着空气演讲。演讲老人 {: .align-caption style=“text-align:center;font-size:smaller”} 而后来到中正纪念堂，这真是个纪念“堂”，大堂里面就有一个蒋先生的雕塑，很空旷。在前面的自由广场上正巧遇到在训练的仪仗队，当时下着大雨，他们仍然照常训练。等雨渐小，我们就出发前往象山，看101大楼。后面101大楼的景色证明冒雨爬一小时的山是非常值得的，我也拍到了此行最满意的几张照片之一。晚上逛了逛诚品书店就回去休息了。黄昏时的101大楼 {: .align-caption style=“text-align:center;font-size:smaller”} 第二天 7.5 今天基本是沿着捷运淡水线往北游览。第一站是士林官邸，这是此行印象比较深刻的人文景点。官邸内装潢朴素，家具也不算奢华，但在但在电子导览温柔的声音和蒋宋二人的故事衬托下显得格外温馨。宋美龄的化妆室可是“梦幻的粉色系”，即使贵为第一夫人也还有一颗少女心，颇为有趣。接着是台北故宫博物院，重点看了瓷器、玉器、书画展厅。特别是在瓷器展厅里真是感受到了精致的古代工艺品带来的震撼和冲击。可惜里面的空调实在太给力，中午又冷又饿的我们便没有再继续参观。下午来到了淡水，周董的故乡。沿着老街走了一圈，比较普通。周董母校不让参观，只得在门外留个影，然后便去了旁边的真理大学、红毛城等景点，最后再走到著名的渔人码头，静静地看了看海，听了听歌。渔人码头 {: .align-caption style=“text-align:center;font-size:smaller”} 晚上乘捷运回到市里，去逛了逛大稻埕以及繁华的西门町，最后回到酒店。第三天 7.6 这天主要是往南，先去了龙山寺、国立台湾大学，然后去了个艺术村”宝藏岩“（基本工作室都没有开门，感觉略坑），接着去了康永街，吃了牛肉面和芒果冰，附近的师大也顺便逛了逛。基本没有什么特别出彩的景点。下午我们便从台北出发前往台中。我们到台中酒店放下行李后就近逛了逛“逢甲夜市”。第四天 7.7 这天游览台中，台中其实景点不多，游客来此多半是因为要去日月潭或清境农场。我们上午去了东海大学，这是一所教会大学，日式风格的校园特别漂亮，最出彩的当然是贝聿铭大师设计的这个路思义教堂。下午的时候我们买了个当地旅游项目，拼车前往高美湿地。湿地的卖点是“最美落日”，可惜当日下着小雨，云层厚重，我们无缘得见。路思义教堂 {: .align-caption style=“text-align:center;font-size:smaller”} 晚上回到市区，我们便乘火车站前往嘉义。第五天 7.8 最终我们在日月潭和阿里山中选择了后者，而到嘉义纯粹是为了去阿里山。阿里山其实就是个森林公园，原来日本人为了砍伐山中的林木资源修建了一条铁路，但由于我们功课做得不够，没提前买上火车票。公园里主要看一些“神木”即树龄很长的树木。是个亲友郊游的好去处，但从旅客的角度我觉得可玩性不高。当晚我们从嘉义乘火车前往台南。晚上乘着去洗衣服夜游了一下古城第六天 7.9 台湾的开始在台南台南真是一个充满历史感的小城市。除了城市本身，我们恰好入住了一个极其古老的酒店，装潢、设施可以让你感觉时光倒流了四五十年，打开抽屉里面还放着《圣经》和星云大师写的《献给旅行者》；而酒店对面的电影院外墙海报居然是手绘的，这个电影院本身就像在一部老电影里。离开台南时光哥还专程去买了一张手绘的《爱乐之城》明信片。电影院 {: .align-caption style=“text-align:center;font-size:smaller”} 台南的人文景观主要有赤坎楼、安平古堡、大天后宫、孔庙等等。整个城市遍布庙宇，偶尔还能看到教堂，估计宗教人口占很大比例。赤坎楼和安平古堡最初均为荷兰人所建，台湾在近代百余年先后受到荷兰、日本、美国的影响，加上本身原住民以及49年后涌入的外省人，也算是个多元文化交织的地区。大半天台南就逛完了，下午我们又坐火车前往台湾第二大城市——高雄。到高雄时还不到傍晚，我们走路到附近的六合夜市简单吃了点东西，又来到稍远一点的瑞丰夜市。然后去了小巨蛋，又去了”爱之河“，一通暴走后回到酒店。第七天 7.10 高雄虽然是台湾第二大城市，但我们给他的分配的时间也只有大半个白天。上午我们往西子湾方向游览，先到了驳二艺术特区。这里有点像北京的七九八，是由海边仓库改建而成的，整片区域有许多有趣的雕塑，仓库内的展览我们并没有参观。离开驳二之后，我们去了附近的国立中山大学。这所学校依山傍海而建，房子几乎是红色的，配上绿树蓝天，画风非常鲜艳。学校的海景简直无敌，大陆的大学我去不过少，论景色几乎没有可与厦大相提并论的，今天在宝岛终于帮它找到了个对手。中山大学 {: .align-caption style=“text-align:center;font-size:smaller”} 从高雄开始，我们开始领略到台湾湛蓝的海水。下午，我们坐出租车前往台湾最南端——垦丁。到垦丁的民宿住下后，最重要的事就是租电动车。我们实际上住在恒春，是一个古城，离垦丁骑车还有二十分钟的路程。这片大区域景点分散，没有交通工具是根本不行的。当天我们先去了猫鼻头公园，在山顶可以遥望垦丁大街，面朝大海的话眼前就是一片湛蓝。这种感觉真的有一种让你安定的力量，相比起来大陆浑浊海水的效果就要大打折扣了。从猫鼻头出来我们去了一个沙滩，台湾人民还是比较奔放，有不少比基尼MM，:P，也有一些传统水上项目比如摩托艇之类的。大约计算号时间，我们便前往台湾第二处适合看日落的地方，号称“全球十二大日落”的关山日落。虽然今天天气很好，但是天边的云朵又一次让我拍日落的想法落空了。关山日落 {: .align-caption style=“text-align:center;font-size:smaller”} 晚上吃了伙计冬粉鸭，其实冬粉鸭是配角，主角是卤味。老伯切卤味的刀法了得，但感觉卤味比较一般。第八天 7.11 这天主要在垦丁瞎逛，鹅銮鼻、龙磐公园、风吹沙之类的地方。清华的朋友们如果因为学校不让骑电动车而不爽可以来垦丁释放一下。我们骑了一整天，除了收获美景外，还收获了一双晒伤的膝盖。。就问你意不意外惊不惊喜？下午还了车晚上就在恒春城里瞎逛，看到了跳高级广场舞的大妈们，路过了海角七号里阿嘉的家，然后去了一个叫波波厨房的文艺小店买了第二天的早餐。第九天 7.12 这天的主要安排是前往光哥心心念念的离岛——兰屿。早上起来天气大好，我们的心情也大好。兰屿上住的是达悟族，因为捕捉飞鱼而著名，但七月其实飞鱼季已过。从垦丁后壁湖码头乘船到兰屿要两个多小时。我们在兰屿游玩后将直接乘船前往台东，这是一个效率最大化的旅行线路，船票是通过到垦丁的出租车司机提供的电话买到的，简直太巧了。由于船票买的晚，兰屿的住宿我们也没有提前订好。到了岛上第一件事就是找民宿，兰屿有个旅游网站叫兰色大门，我们在上面很快找到了住所，真的很幸运。民宿老板还提供了机车租赁、潜水、拼板舟体验等一系列活动的预定服务。岛上只能用现金交易，我们biaji花了1万多台币，好在有一个取款机。...