reset and begin
11/20/2010

Bóc tách nội dung html của trang bất kỳ

Code này dựa vào việc phân tích định dạng của 1 trang web sau khi được tải về
Sau khi được tải về nội dung sẽ  được Phân tích tìm  vị trí để lấy đúng nội dung cần tải .Dựa vào các thẻ của html như span div  table tr td mà từ đó lấy ra nội dung trong các tab đó
Đây là  1 vài ví dụ trong code có sẵn ta xem cách nó làm việc
<?php
include('../simple_html_dom.php');  nạp thư viện

đưa đường dẫn để ta có thể  đọc mã html của trang web đó
$html = file_get_html('http://www.google.com/');

// find all link
foreach($html->find('a') as $e)
    echo $e->href . '<br>';

// find all image
foreach($html->find('img') as $e)
    echo $e->src . '<br>';

// find all image with full tag
foreach($html->find('img') as $e)
    echo $e->outertext . '<br>';

// find all div tags with id=gbar
foreach($html->find('div#gbar') as $e)
    echo $e->innertext . '<br>';

// find all span tags with class=gb1
foreach($html->find('span.gb1') as $e)
    echo $e->outertext . '<br>';

// find all td tags with attribite align=center
foreach($html->find('td[align=center]') as $e)
    echo $e->innertext . '<br>';
   
// extract text from table
echo $html->find('td[align="center"]', 1)->plaintext.'<br><hr>';

// extract text from HTML
echo $html->plaintext;
?>
Tuy nhiên, hạn chế của việc phân tích mã html là phải xác định đường dẫn đến vùng nội dung chính trước khi bóc tách đối với mỗi domain.
Ta phải phân tích html trang đó rồi mới tiến hành sửa code bóc tách nội dung.
link down class here

Bloger Comments
G+ Comments
Comments FaceBook

No comments:

List

Profiles Information


About me : Nothing is 1 vài thứ - 1985

Places I've Lived : I Hà Nội

Home Page : http://www.shimivn.blogspot.com/

Think : 1:1000000000

Languages spoken : Vietnamese,English.

Mobile : sony C2305

dell : i3-Ram 3GB- HDD 250GB .