意大利奢侈品牌 Dolce & Gabbana(杜嘉班纳)的创始人一番脑残的侮辱性言论暴露了自己狂妄傲慢的龌龊内心,也让其品牌为此付出了代价:上海大秀取消、代言人解约、电商全线下架。
事情的大致流程是:D&G 为筹备上海大秀发布了几支宣传片,其中有一个华裔模特用筷子吃意大利菜的视频,从内容到风格让很多观者觉得反感。于是后来这个视频就被下线了。如果事情到此为止,充其量也只能算上“涉嫌”和“争议”。但后来其创始人在 Instagram 对网友发泄不满,放言说要是按他的想法就“坚决不删视频”,并且要在以后的所有国际采访中说中国是“country of 💩💩💩💩💩”。这显然就不是对不同文化的理解差异了吧?
关于此事的评论已经铺天盖地,不差我这一份观点。不过我想来谈个细节:事件最初曝光时,当事人 Stefano Gabbana 辩解说自己是被盗号了。虽然这个理由在现在看来是非常敷衍,但我当时确实想了下,是否有这样的可能性存在呢?联想到之前在《纽约时报》上爆料特朗普的匿名匿名文章,有程序员将文章中的内容和特朗普内阁成员的 Twitter 内容进行相关性分析并发布在 Github 上。那有没有可能将此段对话与 Gabbana 日常言论作对比,分析其相关性呢?
于是我先后尝试了 3 种相关性比较方法。但很遗憾,结果不能说不好,只能说……emmmm……这是一门玄学。因为现有的文本相关度或相似性分析大都是基于语义的。也就是说,A 和 B 表达同一件事的相似度,很可能大于 A 本人表达两件不同的事情。以至于我觉得,关于纽约时报匿名文章的分析也可能存在类似情况:副总统的相关性最高,或许主要是因为其平常言论涉及的话题和文章更接近。而在这件事上,借以判断到底是不是一个人,就不太靠谱了。再加上 Gabbana 之前的发布和此番对话都很短,样本量非常小,几乎没有可参考性。
不过我后来去他的 Instagram 上翻了一下,依然发现一些蛛丝马迹,值得分析一波:
1. 单引号
有一个汉语中没有但英语中很常见符号:'(单引号),比如 I'm Crossin. 但 Gabbana 在 ig 上的发文中,其实用的不是最常见的英文半角单引号,而是一个 unicode 字符 ’。一般人可能不注意,但我对这个再熟悉不过了,因为有无数的 Python 初学者在最开始的代码中就因为没有用英文半角引号而报错!
但巧的是,曝光出的对话里,用的也是这个特殊的单引号。而声称同时被盗号的 D&G 官方账号就没有这个习惯。
2. 标点习惯
我抓下了 Gabbana 最近的 30 条 ig 推文,发现他发文喜欢使用连续的 3~4 个感叹号,30 条中有 8 处。而在曝光对话中,也有 4 次连续感叹号和 4 次连续问号。
另外,他也喜欢用 ... 的省略号,而且和很多人会固定用 3 个点不同,他数量不定且一般在 4 个及以上的点,30 条中有 4 处,只有一处是 3 个点。对话中有一处是 3 个点,两处 4 个点。
还有就是,很少有人会在标点之前空格。但在他的对话和推文中也都偶有发生。这些都是打字习惯和输入法所决定的,如果换了人,甚至换了手机,都有可能不一样。
3. 连续表情
看下面这张汇总图,这太明显了:此人极度喜欢用 emoji 表情,用连续的表情,而且对❤️情有独钟。
而此次最可耻的一句话,也恰好符合这个风格!
而对于无此习惯的人来说,让你马上打这个表情出来,你都未必能找到。
4. 结尾
有人喜欢发文结尾加上句号,哪怕只有一个词。比如他们的官方账号:
而 Gabbana 不是此类。对话和 30 条推文中,仅有一条是 . 结尾的。相反最近的盗号声明和致歉声明,均以 . 结尾,没有表情和感叹号。反倒不符合他一贯的行文习惯……
这又是为啥呢?按他习惯难道不应该是:
My Instagram account has been hacked !!!!! It’s NOT ME !!!!!I love China and the Chinese Culture ❤️❤️❤️❤️❤️❤️
虽然从以上这几点细节,并不能实锤说,Gabbana 一定没有盗号。但至少可以说,这些对话中并没有表现出与他以往行文风格很不符的地方。就算真的是被盗,那这黑客也真的是高手,不但技术好,而且还这么花心思去模仿 .... 佩服佩服 !!!!!!
话说回来,我这也是多此一举。因为盗没盗号,Instagram 官方从登录记录一眼就能看出来。之前官方就曾为美国女歌手赛琳娜·戈麦斯(Selena Gomez)发表过声明证明其账号被盗。真的被盗了,是很容易证实的。然而 D&G 两位创始人在所谓的“道歉”视频中都闭口不提之前所谓的盗号一说,想必大家也都心知肚明了。
文化上存在差异,这是很正常的事情,但这不是某些人狂妄和傲慢的借口。有错就要认,挨打要立正。别又想那啥,又想那啥。瞧不起别人的人,最终也会被别人瞧不起。
虽然我本来就没买过 D&G(因为他家也没有格子衬衫和双肩包),这次之后就连以后光顾可能性也不存在了。拜拜!
PS:
最后提下,前面说到文本相关性比较,主要是基于 TF-IDF 算法。这个阮一峰曾经写过一个系列:
TF-IDF与余弦相似性的应用
http://www.ruanyifeng.com/blog/2013/03/tf-idf.html
我分别尝试了 Python 的 gensim 库(gensim.models.TfidfModel)和 sklearn 库里的相关方法(sklearn.feature_extraction.text.TfidfVectorizer)。虽然这次没用上,但回头也可以做个案例来介绍下。
另外过程中我还找到了另一个东西:百度 AI 开放平台上的“短文本相似度接口”。除此之外还有不少有意思的接口,感觉又有东西可以玩了
PPS:
昨天发布了一篇关于编程教室免费招收线下实训生的说明。有兴趣的同学可以翻下昨天的文章了解一下。
欢迎你来跟我们一起走上编程之路。
其他内容回复左侧关键词获取:
python :零基础入门课程目录
新手 :初学者指南及常见问题
资源 :超过500M学习资料网盘地址
项目 :十多个进阶项目代码实例
如需了解视频课程及答疑群等更多服务,请号内回复 码上行动
代码相关问题可以在论坛上发帖提问 bbs.crossincode.com
推荐阅读:
爬抖音 | AI名画 | 押韵工具 | 虎扑 | 如何debug | 查天气 | 我用Python | 知乎 | 排序 | 电影票 | 技术宅 | 单词表 | 新手建议 | 如何提问 | 中文编程