徒然なるままに プログラミングメモや日々の生活などつれづれとつづっていくblog

2013年6月30日

アンテナサイト公開

Filed under: PHP,アンテナサイト — ranpei @ 7:19 AM

アンテナサイト作成の模様はまだ途中ですが
アンテナサイト自体は完成しているため公開します。

気ままアンテナ☆ミヾ(*´∇`)σ←今回作成したアンテナサイト
kimamaスクリーンショット

ファイルをローカルにダウンロードする

Filed under: PHP,アンテナサイト — ranpei @ 7:09 AM

前回の構成のためにRSSをダウンロードしてくる処理を作成してみます。

フォルダ構成は以下のようにしてみました。
antenaSiteDir

rssDownload.phpが本体でsite.csvから対象URLを取得してrssDataフォルダーにファイルを保存します。

以下がソースです。

<?php

define("RSS_DIR", "../rssData/");	// RSSデータのダウンロード先
define("CSV_FILE", "site.csv");		// RSS配信サイトのURLリスト
define("CRLF", "\r\n");

require_once __DIR__.'/rssLoader/rssLoader.php';

/**
 * CSVファイルから対象のRSSURL一覧を取得
 */
echo "load site csv start\n";

// CSVファイルをロード
$siteList = file(CSV_FILE, FILE_IGNORE_NEW_LINES);
if($siteList === false) {

	echo "not found ".CSV_FILE."\n";
	return;
}

echo "load site csv end\n";

/**
 * 各RSSダウンロード
 */
echo "download rss start\n";
$http = new httpConnecter();
try {

	$count = 0;
	foreach($siteList as $url) {

		echo "download url:".$url."\n";

		// 接続
		$http->connect($url);

		// 保存先ファイルオープン
		$filePath = sprintf("%s/%03d.rss", RSS_DIR, $count);
		$file = fopen($filePath, "wb");

		// ストリームでデータをロードし、ストリームで書き込む
		$buffer = null;
		do {

			// webからデータを取得する
			$buffer = $http->loadBinnaryStream(4086);

			// ファイルにデータを書き込む
			fwrite($file, $buffer);

			echo ".";

		} while(!is_null($buffer));
		echo "\n";

		// ファイルをクローズ
		fclose($file);

		$count++;
	}
} catch(Exception $e) {

	echo $e->getMessage()."\n";
}
echo "download rss end\n";

httpConnecterはrssLoaderが利用しているものを流用しています。
ぶっちゃけこれ使わなくてもいいんですけどね・・

これをcronで定期的回せば定期的にRSSを取得できます。

ソースのダウンロードはこちらから:[download id=”2″]

2013年6月28日

アンテナサイトの構成案

Filed under: PHP,アンテナサイト — ranpei @ 2:02 AM

前回、RSSをロードして情報を取得するクラスを作成した。
後はこのクラスを使って複数のRSS配信サイトからRSSを読み込んで表示するだけなのだが 、

ここで1つ注意すべき点がある。

それはアンテナサイトにアクセスがあるたび毎回RSS配信サイトにアクセスするような構成にしないことだ。

以下の図を見てほしい
アンテナサイトへのアクセスが少ない場合 アンテナサイトへのアクセスが多い場合
この用にアクセス数が増えればその分RSS配信サイトにも同じだけのトラフィック増加が起きることになる。
そしてサイトの表示時間も遅くなることが容易に想像だろう。

まあ、こんな注意いまさらって人が多いだろうが・・

だいたいの人は以下のように、RSSを取得するバッチと表示用の2つのプログラムを作成することになるだろう

antenaSite1

もしくはRSSを取得後静的なHTMLを吐き出すようにするって人もいるでしょう

antenaSite2

どちらも取得は一定時間ごとに行うのでRSS配信サイト側に係る負荷はアンテナサイトへのアクセス数が増えても増加しません。

また表示時間も 静的HTML > 表示用プログラム の順で早くなります。

今回は取得用と表示用に2つのプログラムを作成する方法を使って作成しようと思います。

では、次回に

2013年6月23日

RSSリーダーを作ってみる

Filed under: PHP,アンテナサイト,ソース配布 — ranpei @ 7:19 AM

ブログやニュースなどの更新情報を配信するために用いられるRSS
これを利用して複数のサイトの情報を取得表示しているのがアンテナサイトです。
今回ふと思い立ってこのアンテナサイトを作ることにしたので数回に分けて作成までの道のりをつらつらとつづって行こうと思います。
まずはRSSを解析する仕組みが必要なのですがググって見つかるソースは拡張モジュールのcurlを利用しているものばかり
基本的に拡張モジュールは使いたくないので自力で作ってみることにした。

・rssLoader.php

<?php

require_once __DIR__."/channelBean.php";
require_once __DIR__."/itemBean.php";
require_once __DIR__."/rssException.php";
require_once __DIR__."/lib/httpConnecter.php";
require_once __DIR__."/lib/xmlLoader.php";

class rssLoader {

	const VERSION_1 = 1;
	const VERSION_2 = 2;

	const VERSION_ALL = 0;

	public function __construct() {
	}

	public function __destruct() {
	}

	/**
	 * RSSを読み込みchannelBeanで取得
	 *
	 * @param int $version 対象RSSバージョン指定
     *                    全バージョンのRSS  : rssLoader::VERSION_ALL
     *                    バージョン1.0のRSS : rssLoader::VERSION_1
     *                    バージョン2.0のRSS : rssLoader::VERSION_2
	 *
	 */
	public function loadRss($path, $version = self::VERSION_ALL) {

		/**
		 * RSSを取得
		 */
		$http = new httpConnecter();
		$http->connect($path);
		$rssStr = $http->loadText();
		if($rssStr === "") {

			// 取得できなければエラー
			throw rssException::notRss("RSSファイルの取得ができませんでした。");
		}

		/**
		 * RSSを解析
		 */
		$xml = new xmlLoader();
		$rssDom = $xml->parsor($rssStr);

		$channelBean = new channelBean();

		$channelBean->encoding = "UTF-8";

		// rss1.0
		if(isset($rssDom->attributes()->version) == false) {
			$channelBean->rssVersion = self::VERSION_1;
			$channelBean->rssUrl = $rssDom->channel->link;

			if($version != self::VERSION_1 && $version != self::VERSION_ALL) {

				throw rssException::notMatchVersion("このRSSはVertion1.0ではありません。");
			}
		}
		// rss2.0
		else if($rssDom->attributes()->version == 2) {

			$channelBean->rssVersion = self::VERSION_2;
			$channelBean->rssUrl = $rssDom->channel->link;

			if($version != self::VERSION_2 && $version != self::VERSION_ALL) {

				throw rssException::notMatchVersion("このRSSはVertion2.0ではありません。");
			}
		}

		// RSSの本体情報を取得
		if(isset($rssDom->channel->title)) {
			$channelBean->title = $rssDom->channel->title;
		}
		if(isset($rssDom->channel->link)) {
			$channelBean->link = $rssDom->channel->link;
		}
		if(isset($rssDom->channel->description)) {
			$channelBean->description = $rssDom->channel->description;
		}
		// dcの要素を取得
		$dc = $rssDom->channel->children('http://purl.org/dc/elements/1.1/');
		if(isset($dc->date)) {
			$channelBean->date = $dc->date;
		}
		if(isset($dc->language)) {
			$channelBean->language = $dc->language;
		}
		if(isset($dc->creator)) {
			$channelBean->creator = $dc->creator;
		}

		// 各記事を取得する
		foreach($rssDom->item as $item) {

			$itemBean = new itemBean();

			if(isset($item->title)) {
				$itemBean->title = $item->title;
			}
			if(isset($item->link)) {
				$itemBean->link = $item->link;
			}
			if(isset($item->description)) {
				$itemBean->description = $item->description;
			}
			if(isset($item->category)) {
				$itemBean->category = $item->category;
			}
			if(isset($item->pubDate)) {
				$itemBean->date = $item->date;
			}
			// dcの要素を取得
			$dc = $item->children('http://purl.org/dc/elements/1.1/');
			if(isset($dc->date)) {
				$itemBean->date = $dc->date;
			}
			if(isset($dc->subject)) {
				$itemBean->category = $dc->subject;
			}
			if(isset($dc->creator)) {
				$itemBean->creator = $dc->creator;
			}

			array_push($channelBean->itemList, $itemBean);
		}

		return $channelBean;
	}
}

rssLoaderで解析するとchannelBeanクラスが返却される。
このchannelBeanクラス内部にitemBeanのリストがありそこに個々の記事のデータがあるといった感じ
itemBeanがchannelBeanの内部にあるのはRSS2.0ではchannelタグの内部にitemタグがあるからといった理由から

使い方は以下
・rssTest.php

<?php

require_once "rssLoader.php";

$rssLoader = new rssLoader();
try {
	$channel = $rssLoader->loadRss("http://watch2ch.2chblog.jp/index.rdf");// ネットワーク上のファイルの場合
	//$channel = $rssLoader->loadRss("/var/www/html/rss.rdf");// ローカルファイルの場合
} catch (Exception $e) {

	echo $e->getMessage();
}

?>
<html lang="ja">
	<head>
		<meta charset="utf-8" />
		<title>RSS</title>
	</head>

	<body>
		<h2><?=$channel->title ?></h2>
		<table border="1">
			<tr>
				<th>タイトル一覧</th>
				<th>記事</th>
				<th>作成日</th>
			</tr>
			<?php foreach($channel->itemList as $item): ?>
			<tr>
				<td><?=$item->title ?></td>
				<td><?=$item->date ?></td>
			</tr>
			<?php endforeach; ?>
		</table>
	</body>
</html>

ソースコードのダウンロードはこちら:[download id=”1″]

これでRSSを読み込んで記事情報を取り出すことはできました。

次回に続きます。

追記
このrssLoaderにはRSS2.0が読み込めないバグがあります。
修正版は後日別の記事にて掲載いたします。

Powered by WordPress