Code này dựa vào việc phân tích định dạng của 1 trang web sau khi được tải về
Sau khi được tải về nội dung sẽ được Phân tích tìm vị trí để lấy đúng nội dung cần tải .Dựa vào các thẻ của html như span div table tr td mà từ đó lấy ra nội dung trong các tab đó
Đây là 1 vài ví dụ trong code có sẵn ta xem cách nó làm việc
<?php
include('../simple_html_dom.php'); nạp thư viện
đưa đường dẫn để ta có thể đọc mã html của trang web đó
$html = file_get_html('http://www.google.com/');
// find all link
foreach($html->find('a') as $e)
echo $e->href . '<br>';
// find all image
foreach($html->find('img') as $e)
echo $e->src . '<br>';
// find all image with full tag
foreach($html->find('img') as $e)
echo $e->outertext . '<br>';
// find all div tags with id=gbar
foreach($html->find('div#gbar') as $e)
echo $e->innertext . '<br>';
// find all span tags with class=gb1
foreach($html->find('span.gb1') as $e)
echo $e->outertext . '<br>';
// find all td tags with attribite align=center
foreach($html->find('td[align=center]') as $e)
echo $e->innertext . '<br>';
// extract text from table
echo $html->find('td[align="center"]', 1)->plaintext.'<br><hr>';
// extract text from HTML
echo $html->plaintext;
?>
Tuy nhiên, hạn chế của việc phân tích mã html là phải xác định đường dẫn đến vùng nội dung chính trước khi bóc tách đối với mỗi domain.
Ta phải phân tích html trang đó rồi mới tiến hành sửa code bóc tách nội dung.
link down class here
No comments: