認識SEO排名的殺手,『重複內容』超完整攻略

重複內容是一個SEO優化上非常常見的議題,幾乎每個網站都會遇到,但很多剛學習SEO的人並不知道SEO上有所謂的『重複內容』問題,因此我特別寫了這篇來介紹重複內容。

 

重複內容(Duplicate Content)在SEO上是被Google官方證實存在的議題,也是學SEO一定要知道的優化項目之一,但重複內容的類型非常多種,每一種重複內容的解決方法也不一樣,在這一篇文章我希望可以幫助你很完整的學習這個優化項目,了解重複內容產生的原因、原理,並了解該如何診斷自己的網站是否有重複內容、以及你遇到時,該選擇哪一種解決方案。

備註:重複內容類型跟情境太多,這篇文章我先介紹幾種常見的,後續我會再寫其他篇文章介紹其他的重複內容類型。

 

為什麼重複內容會影響SEO?

Google是一個非常重視用戶體驗的公司,當然,搜尋引擎的用戶體驗也絕對是Google最重視的事情之一。相信正在讀文章的你也是Google的高頻率用戶之一,有用過Google就知道,在搜尋結果上我們會看到非常豐富的搜尋結果來幫搜尋者解決問題,試想,如果有五個網頁有著一模一樣的內容(比方說Harris先生的文章被轉載到五個不同的網站上去,就會有五個網頁有一樣的內容),Google會在搜尋結果上都給這五個網頁好的排名嗎?

不,並不會。

Google基本上不會給搜尋者看到5篇一樣的文章(即便在不同網頁上),我們所看到的每一個搜尋結果一定都有著不同的內容,因為不同的文章撰寫者所提出的解決方案、觀點、角度、資訊,知識、產品都不一樣,看到這些多元的、不同的內容有助於幫助搜尋者解決問題。你應該沒看過搜尋某某關鍵字後,搜尋結果前10個網頁,裡面內容都一樣吧?Google並不會這樣做,因為這樣做沒辦法真正的幫助搜尋者解決問題,Google希望搜尋者看到多元豐富的搜尋結果。

("如果"搜尋結果會給你一樣的內容,你就會看到以下的畫面,這樣的內容對使用者是沒有幫助的,搜尋者需要多元的、不同的內容)

 

因此,如果今天在五個網頁上存在著一模一樣的內容,通常Google只會選擇給其中一個網頁好的排名。如果你的網站內容在多個網頁都有著一樣的內容,那麼你就會遇到重複內容的問題,可能就會對你的SEO有所傷害。

為什麼重複內容會影響SEO?再舉例來說,"若你跟你同學的作文作業完全互抄,那老師沒辦法判斷哪個人寫的比較好 ,因為兩個人寫一模一樣的作文。Google就像老師一樣,判定哪個同學的作文內容寫得好,並給予搜尋排名 ",重複內容可能發生在不同網域、或是同網域,但只要不同的網頁、有一樣的內容,Google就會無法判斷到底哪個網頁的內容能得到好的排名。

實務上並不是所有的重複內容都會對SEO有負面的影響。每一種重複內容的成因以及解決方式都不同。

在SEO上,重複內容有幾種類型?

實務上重複內容有非常多種,每一種的成因不同,對你的SEO產生的影響以及解決方案也不一樣,在剩下的文章我會詳細進行解說(下圖可以點開來放大看)。

就廣泛定義來說,只要你有多個不同的網址,網址內的內容一樣或是非常相似,在SEO上就是所謂的『重複內容』,根據官方的說法,只有上圖最左側的『抄襲、剽竊』別人的內容會對你的 SEO有很直接的負面影響,這個我想我就不多說了,Google官方已證實,他們會對抄襲別人內容的網站進行懲處,為了保護網站主的智慧財產權,因此,如果你的網站內容都是抄襲別人的並且有被檢舉,Google會採取行動降低你的搜尋可見度以及排名。經營網站的我們,不管是產品描述、文章、文案,都盡可能不要抄襲其他網站的內容,除了會有法律問題外,抄襲並不是經營SEO的長久之道。

除了抄襲、剽竊之外,SEO的重複內容我們還可以再分為兩大類,分別是『同網域重複內容』以及『跨網域重複內容』,同網域又可以分為"網址版本變化"以及"產品變化"兩種,以下我先解釋重複內容的成因,文章後段我會解釋為什麼這些狀況會影響你的SEO以及該怎麼解決,各重複內容的成因如下:

 

重複內容#1『同網域重複內容』- 網址版本變化:HTTPS與WWW

正在閱讀文章的你,也可以跟著我一起檢查你的網站是不是有這樣的重複內容問題。

每一個網頁可能都會有很多不同版本的網址,對於Google來說,只要網址稍微不同,就是完全不同的網頁,以我這篇文章的網址為例,舉例來說,我可能會有四種網址版本:

 

https://www.yesharris.com/content-duplicate-issue/ (HTTPS、有www版本的網址)

http://www.yesharris.com/content-duplicate-issue/(HTTP、有www版本的網址)

http://yesharris.com/content-duplicate-issue/(HTTP、沒有www版本的網址)

https://yesharris.com/content-duplicate-issue/(HTTPS、沒有www版本的網址)

 

有些網站雖然有安裝HTTPS,但卻沒有做好轉址,導致HTTP版本的網址也可以進到你的網站、HTTPS版本的網址也可以進到你的網站,這就會造成Google爬取你網頁時,發現https://www.yesharris.com/ 以及 http://www.yesharris.com/這兩頁都存在,共有兩組網址都可以進到你的網站,而就會衍生出重複內容問題。(另外,關於HTTPS與SEO的影響,可以看這篇:電商網站的重要 SEO排名因素:談 HTTPS對 SEO的影響

另外,你的網頁是否有 www都可以進到你的網站,也會產生重複內容問題,像是 yesharris.com 以及 www.yesharris.com 。實務上如果你的網頁共有1000頁,但每一頁的HTTPS以及HTTP都可以進到你的網站時,等於Google爬取你的網頁時共會爬到2000頁(因為每一頁都有兩種版本的網址),不論是HTTPS以及HTTP,還是 www以及non-www,都是一樣的道理,會導致你的頁面膨脹,並且每一篇文章/產品都有兩種網址。

你可以很簡單的試著用www、non-www 、http、https 這些不同版本的網址進到你的網頁上,如果可以用這些網址進入到你的網頁,那麼你可能就會有重複內容的問題,如果你用這些不同版本的網址進到網站後,會被轉址,那麼請用本文章最尾段的檢測工具看一下轉址的狀況。

這類型的重複內容對於網站的訪客來說是完全沒有影響的,有很多訪客根本不會發現你的網頁上有重複內容,但這會對SEO造成影響,在文章的後段我會針對每一種重複內容列出解決方案。

 

重複內容#2『同網域重複內容』- 網址版本變化:網址參數

不管是內容網站還是電商網站,根據網站架構的不同,可能會產生額外的網址參數,舉例來說:

www.yesharris.com/content-duplicate-issue

www.yesharris.com/content-duplicate-issue?cid=21

www.yesharris.com/content-duplicate-issue?cid=52

www.yesharris.com/content-duplicate-issue?cid=34&pid=2

這些參數的成因有可能是工程師在架構前台與後台的架構時會產生,或是公司需要追蹤成效時會產生,這種狀況非常常見,但很多行銷人可能沒有認知到原來公司網頁有這麼多種網址參數,我也有很多的客戶過去都沒有意識到自己網站有這樣的重複內容問題在影響他的SEO,因此我會建議你可以針對自己的網站檢查一下,是否有這樣的狀況,也許有,但是被忽略掉。

實務上要怎麼檢查呢?

最簡單的方法就是去觀察Search Console的到達網頁報表以及Google Analytics的"所有網頁"報表,看看你的網頁是否有各種不同的參數。(在文章最後我會介紹更多檢查重複內容的手段)

 

重複內容#3『同網域重複內容』- 產品變化/內容變化:

第三種重複內容在電商網站上比較常見,電商網站的商品可能會有很多不同的規格,比方說毛衣有分不同顏色、不同Size,洗髮精可以分不同容量,從300ml、500ml、1000ml。

假設今天你的毛衣產品頁分為:

Harris牌 – 冬季防寒毛衣(黑)

Harris牌 – 冬季防寒毛衣(紅)

Harris牌 – 冬季防寒毛衣(黃)

 

試想一下,如果你有這麼多不同規格的產品頁,他們事實上是同一支產品,只是產品的規格不同,那麼想當然這些產品的頁面除了產品的圖片以及產品名稱之外,網頁上的內容幾乎會完全一樣(畢竟是同一支產品),當有人搜尋"冬季防寒毛衣"時,Google只會給其中一頁排名,你也會遇到重複內容的問題。

備註:如果你有很多不同產品規格,有不同顏色、不同Size,但沒有分成不同網址,那就沒有重複內容問題,可以不用處理,我們在定義重複內容時,定義是:不同的網址上,有著一樣的內容,才會有重複內容問題。

 

重複內容#4『跨網域重複內容』- 商業合作、投稿:

如果你有與其他網站進行商業合作,比方說給其他媒體轉載你的文章,或是你去轉載別人的文章,就會有重複內容的問題,不過因為轉載跟商業合作一定是受過對方的授權,對方並不會來檢舉你,因此也不會被認定為抄襲、剽竊,但仍然會有些SEO的問題產生,關於商業合作以及投稿的部分,我已經有另外寫一篇文章:談《文章投稿》對 SEO的影響,文章投稿會傷害 SEO嗎?

不過我建議你看完這一篇之後,再去讀另外一篇投稿與SEO的關係。

 

不是抄襲就不會被懲罰,那重複內容怎麼影響你的SEO?

上面介紹完了常見的幾種重複內容類型,接下來我會說明重複內容為什麼會影響你的SEO、再接著解釋該怎麼解決這些重複內容問題。

由於重複內容是官方承認的SEO存在議題之一,也是業界SEO專家認同會影響 SEO的現象之一,因此Google曾多次出面解釋重複內容對於網站SEO的影響(Google甚至有一整頁官方說明在談論重複內容),根據官方的說法,只要網站主不是惡意要抄襲、剽竊別人的內容,基本上網站主不會被Google懲處。

重複內容有很多形式跟成因,可能發生在任何網域、任何網站,Google如果爬到你的網站上有五個網頁有著一樣的內容,對於Google來說,搜尋引擎會進行判斷,並且只會給這五個網頁的其中一頁好的排名,雖然Google不會對你的網站進行懲處,但實務上,這會造成兩個 SEO問題。

 

問題#1:權重分散

如果今天你有網頁A、B、C三頁都有著一樣的內容,內容會一樣的成因並不是抄襲、剽竊造成的,可能是網址版本不同、或是網站的參數問題,Google並不會對你懲處,並且只給其中一頁排名(為了給搜尋者多元的搜尋結果)。官方雖然不會對你懲處,但實務上會造成的SEO問題是:你的權重會被分散。

我們都知道SEO有所謂的"網頁權重"存在,你的網頁權重越高,對你的SEO越有幫助,而在網頁權重上Google最重視的就是反向連結,假設我今天有三個版本的網址都可以進到我的某篇文章:

 

https://www.yesharris.com/example (HTTPS版本的網址)

http://www.yesharris.com/example (HTTP版本的網址)

http://yesharris.com/example (沒有www的版本網址)

 

獲得反向連結的主要方法之一就是你的內容被"傳播、分享",如果你有好的內容/產品,消費者/網友/其他網站主會分享、傳播你的網頁,並進而獲得反向連結而提高網頁的權重,當你的網頁有三種版本的網址時,你沒辦法控制別人分享、傳播你的文章時,他使用的是哪一種網址,有的人會轉載/分享A網址、有的人則是轉載/分享B,這就會導致你的網頁權重被分散,權重被分散對SEO當然就會產生影響。

 

問題#2:影響Google爬取你的網頁

假設你有五萬個網頁,並且有HTTPS以及HTTP兩種版本的網頁,那麼Google在爬你的網頁時其實就有十萬頁要爬,這會讓Google爬你的網頁時更沒有效率、也要花更多時間,試想,如果爬蟲爬你的網頁很吃力、很沒效率,是否會對你的SEO有影響呢?這答案應該是顯而易見的吧 : )

我曾經在這篇文章中提過,Google有所謂的 Crawl Budget,當Google爬你的網頁沒有足夠的效率時,就會影響你的SEO(在未來我會針對Crawl Budget來專門寫一篇文章)。

 

談SEO與重複內容的解決方案

針對不同的重複內容,你需要採取不同的解決方案,基本上解決方案有幾種:

 

解決方案#1:301轉址

網頁在進行轉址時有許多種轉址的方法,有301轉址、302轉址、Javascript轉址等,而使用301轉址可以把網頁的權重集中(這是被官方論證過的作法,官方文件如下圖)。

如果你遇到的是同網域重複內容,301轉址通常會是最佳解決方案,舉例來說,如果你有以下不同版本的網址,權重會被分散:

 

https://www.yesharris.com/example (HTTPS版本的網址)

http://www.yesharris.com/example (HTTP版本的網址)

http://yesharris.com/example (沒有www的版本網址)

 

遇到這樣的重複內容時,你必須要先定義自己的標準網址是哪一個,假設我的標準網址定義為"https://www.yesharris.com/example",那麼我應該把其他兩種版本的網址轉址到標準網址上,實務上會是:

http://www.yesharris.com/example – > 301轉址到 – > https://www.yesharris.com/example

http://yesharris.com/example- > 301轉址到 – > https://www.yesharris.com/example

 

決方案#2:Canonical標記

Canonical標記是由Google所提出,你可以特別寫在HTML原始碼上的標記,這個標記會幫助Google認識你的重複內容問題,並且把權重集中,實務上比較適合用在產品版本的變化。假設我有黃、紅、藍、綠四個顏色的毛衣款式,因此我建了四個產品頁面除了產品的圖片以外,內容完全一樣,這將會造成重複內容的問題,影響你的SEO

 

這時候我不可能用301轉址,因為這些不同產品規格的網頁都需要給網站的訪客進行瀏覽,因此,在不能301轉址的情況下,你的替代方案就是官方所提出的<canonical>標記,同樣的,你需要先選定一個標準網址,假設我標準網址定義為綠色的毛衣,那麼做法很簡單,只要在黃、紅、藍三個毛衣的頁面底下加入 <link rel=“canonical” href=“綠毛衣的URL” />,<canonical>標記就已經正確的標示完成(如上圖)。

接著搜尋引擎便會知道這四個頁面之間的關係為同樣的產品頁面:綠色為標準網址,在黃、紅、藍三個毛衣的頁面為重複內容,同時這也會引導Google只索引綠色毛衣的頁面,並且在搜尋結果中 Google只會顯示綠色毛衣的頁面。(黃、紅、藍的頁面有較多的反向連結跟權重,Google同樣能抓取到,並且將這四個頁面視為同一頁,把權重進行集中)

( canonical語法範例:<link rel=“canonical” href=“https:www.yesharris.com” /> )

註:Google官方不保證他採用你所寫的canonical元素會被採用,但我們沒得選擇,這確實Google官方提出的解決方案,能告訴Google你有重複內容的問題,並且Google會盡可能處理。

同時,使用上你要注意,避免有兩個網址互相用canonical指向,舉例來說,如果你在綠色毛衣的網頁上用canonical指向紅色毛衣,在紅色毛衣上canonical指向綠色毛衣,這樣Google不會知道你的標準網址到底是哪一個。正確做法應該如上方的圖片所示,在黃、紅、藍三個毛衣的頁面底下加入<canonical>標記,而綠色毛衣的網頁不使用canonical 標記(因為綠色毛衣自己就是標準網址,而黃、紅、藍三個毛衣的頁面才是重複內容)。

 

解決方案#3:關於商業合作以及投稿

關於商業合作以及投稿的部分,因為議題比較大,所以我有另外寫一篇文章來說明,如果你有合作的品牌跟你互相轉載文章,請閱讀:談《文章投稿》對 SEO的影響,文章投稿會傷害 SEO嗎?

 

解決『重複內容』時的注意事項

除了上述兩種解決方案之外,在解決的同時,有一些注意事項你要注意:

 

注意事項#1:盡可能不要發生『重複內容』

最好的狀況就是根本沒有重複內容產生,權重不會被分散,也不需要特別用上述的解決方式,實務上如果重複內容的狀況很多,其實光轉址的處理就會非常花時間。

有很多案例是客戶的網站同時有上述所有的重複內容狀況,有www與non-www版本的網址,又有HTTPS與HTTP的重複內容、網址還有很多種不同的參數,光處理這些重複內容問題可能就要好幾個禮拜的時間,因為你要檢測重複內容發生的位置、整理出清單、請工程師轉址,轉址後還要花時間檢查是否有確實轉址,如果公司網站規模很大、有幾十萬頁的網站規模,甚至需要幾個月的時間來處理。

 

注意事項#2:謹慎使用301轉址

301轉址在SEO上是不能胡亂使用的,否則會對你的SEO造成很大的傷害(同樣的我會花時間寫一篇專注討論轉址跟SEO之間的問題),以本篇文章提到的狀況來說,你必須要確保有重複內容的狀況才能使用。

 

注意事項#3:其實每個網站難免會有重複內容問題,是否處理要看比例

每個網站難免都會有一些重複內容問題,經常我們可能也會引用其他網站的內容(像是我的部落格,我經常會引用部分Google官方的段落幫助你學習),引用其他網站的文章段落也會導致你有部分內容跟別人一樣。

實務上我們在定義重複內容時會看"重複內容的比例是多少",如果你是引用別人一小個文章段落,但該段落只佔你整篇文章的20%,那基本上你不用太擔心,因為你有80%的內容是獨特的,不會對SEO產生太多影響,但如果你的網頁有80%的內容跟其他網站/網頁的內容一樣,那麼就會有重複內容問題。

 

Bonus:檢測重複內容的工具

在文章的尾段,我想分享一些額外的重要知識,因為重複內容有非常多種,有『抄襲、剽竊』、『同網域重複內容』、以及『跨網域重複內容』。

基本上如果你複製、甚至是抄襲別人的內容,你一定會知道,因為你是網站主或網站的行銷人。

如果你有很多不同產品規格變化,且每一種規格的網址都不一樣,你也會知道。

如果你有跟別的品牌有投稿、轉載的商業合作,你也會知道。

最麻煩的就是怕你的網站上有不同的網址版本或是參數(像是上述提到的HTTPS與HTTP,或是?cid=234這樣的參數),有時候行銷人不會察覺到網站上有這些參數,所以你需要透過一些工具來進行檢測,實務上我們常見的檢測方法有幾種:

 

檢測方法#1:Search Console的『改善HTML』報表

在Search Console的『改善HTML』報表內,Google會把爬到『重覆Title』或是『沒有設定Title』的網頁列出來給你,基本上如果你有多個網址版本的內容一樣,那麼這些內容一樣的頁面他的Title、Description一定也一樣,在Search Console你可以檢測到。(註:因為我不可能截圖客戶的網站數據到部落格上,故只能放上我的截圖,但我的網站沒有重複內容問題,所以下圖的Search Console沒有顯示偵測到的問題,如果你的網站有被偵測到問題,在這張報表中會看到資料,而不會像下圖這樣顯示【我們並未在您的網站上偵測到任何內容問題。】。)

 

檢測方法#2:Search Console到達網頁報表以及GA的所有網頁報表

如果你有很多不同版本網址的網頁,基本上GA的所有網頁裡面會看到,你可以打開GA的網頁報表,去找出那些流量比較少的網頁,看看你的網頁是否有很多不同版本的網址。

 

檢測方法#3:爬蟲工具:Ahrefs、Screaming Frog

上述的兩種方法其實會有它的問題,舉例來說,如果你有重複內容問題但Google還沒爬到,那麼『檢測方法#1』的Search Console的報表就不會顯示出來,但Google現在沒爬到不代表未來不會爬到,因此只看Search Console的報表未必可以完美的檢測出所有的重複內容問題,以GA的報表來說,如果你有重複內容的問題,但那些重複內容的頁面並沒有產生流量,GA裡面也不會有資料(有流量的網頁才會在GA裡面有資料)。

因此,上述的方法其實是不夠的,以SEO顧問的角色來說,為了更有效的檢測客戶的網站SEO問題,通常身為顧問,我們會購買其他的SEO工具,並配合Search Console、Google Analytics來進行更完整的檢測,以我來說,我是使用我曾經推薦過的 SEO工具:Ahrefs 。Ahrefs裡面有爬蟲的功能,原理上他們會派一隻爬蟲去爬你網站上的資料,並且把偵測到的SEO問題列出來給你(如下圖)。

 

Bonus:轉址檢測工具 – Redirect Path

在文章的前段我們有提到重覆內容有時是網址版本造成的(像是HTTPS以及HTTP),實務上檢查的方法就是你同時試著使用HTTP以及HTTPS兩種版本的網址造訪你的網頁,看是否能夠成功造訪,如果可以的話,就會有重複內容的問題,並且必須要用301轉址進行處理。

你有可能會發現你的網站確實有網址版本的重複內容問題,或是網站現在已經有做好轉址了,因此你會需要檢查網站的轉址狀況,在檢查網址的轉址狀況時可以使用 Redirect Path這個免費的Chrome工具,Redirect Path可以幫助你檢查網站的轉址狀況,以下圖來說,我試著用https://www.yesharris.com 進到我的網站,然後Redirect Path幫我偵測到https://www.yesharris.com會自動301轉址到http://www.yesharris.com (沒有HTTP版本的標準網址)。

 

 

今天的文章先到這邊囉,希望透過這篇文章先給你一些『重複內容』的基本知識,在未來我會針對『重複內容』提供更多的分享以及教學,我們下一篇文章見 : )