1、首先要獲取到對方網(wǎng)址的所有內(nèi)容,可能你會想到用file_gets_contents來獲取,但此函數(shù)不適合用于獲取遠(yuǎn)程文件,用于打開本地txt文件還是蠻好用的。那么用什么來獲取呢?Curl,這個php的擴(kuò)展來處理。下面就是一個簡單的獲取網(wǎng)頁內(nèi)容的基本配置,更多參數(shù)配置可以到網(wǎng)上去搜。
【建設(shè)網(wǎng)站建設(shè)】 網(wǎng)站創(chuàng)建公司哪家好
2、在采集網(wǎng)頁匹配數(shù)據(jù)時,特別是在列表頁,可以先把獲取到的對方所有的空格換行等html標(biāo)簽去掉,寫起正則來就會容易很多。這里提供一個函數(shù):
【網(wǎng)站建設(shè)公司哪家好】
3、在獲取到對方的數(shù)據(jù)的時候就要開始正則匹配了,這里介紹幾個常有的匹配規(guī)則:
專業(yè)辦理網(wǎng)站制作
一個是任意字符(.*?),另一個是([\s\S]*?)表示包括換行符的任意字符,在匹配過程中夠用了。然后選擇匹配模式i即可。
4、介紹一下采集的思路,可以先把符合頁面的數(shù)據(jù)下載下來保存為txt文件,再來本地處理就【企業(yè)網(wǎng)站制作公司】更快一些。還有就是為了避免頻繁訪問對方網(wǎng)站或數(shù)據(jù)丟失狀態(tài)可以加一個while(){}循環(huán)或是sleep()暫停幾秒來處理。把相關(guān)的數(shù)據(jù)庫處理函數(shù)要封裝好,直接調(diào)用。
5、還有一個重要的事情,很多人可能會忽略,就是頁面的編碼問題,如果對方網(wǎng)站是gbk的編碼,則相應(yīng)的php文件或是用于提交條件的html文件也會是gbk的編碼。但是這會存在一個問題,就是發(fā)生在gbk的html向gbk的php頁面提交中文數(shù)據(jù)的時候,gbk的php文件可能就不會給你反應(yīng),如果你用這些中文數(shù)據(jù)去匹配的時候會遇到問題。于是要轉(zhuǎn)變思路,utf-8是更好的編碼模式,所以我們要采用utf-8的編碼,而對方的又是gbk的,如何做呢?
$allcontent=iconv('gbk', 營銷型網(wǎng)站建站【營銷網(wǎng)站開發(fā)】'utf-8',removetag(curl_exec($ch)));
上面的這樣轉(zhuǎn)換就ok了!所有的都用utf-8
本文作者:網(wǎng)絡(luò)王國梁
上市公司網(wǎng)站制作公司哪家好 多用戶網(wǎng)站建設(shè)
請立即點(diǎn)擊咨詢我們或撥打咨詢熱線: 13968746378,我們會詳細(xì)為你一一解答你心中的疑難。項(xiàng)目經(jīng)理在線