ttmとRを使ったテキストマイニングの基礎の基礎

テキストマイニングを一通りやってみた。

  1. まず、Twitterのデータを抽出する。各種ツールがあるようだが、JavaScriptベースのウェブアプリケーションを使った。スクリプトがネットに落ちているのでそれを改良する。Twitterの仕様上一度に取得できるデータは100件まで。時間を置いて取得しなおせばデータを蓄積することはできる。
  2. 次にttmというツールにデータを食わせる。Shift-JIsのタグ付きCSVという特殊な形になっている。TwitterのデータはUTF-8なので、整形とテキストエンコーディングの変更が必要。タグは何でもよいみたいだ。今回はMacで作業したが、Mac版では辞書の読み込みなどはしなくても良いみたいだ。ttmのダウンロードはこちら。
  3. ttmでデータを加工したら、今度はRにフィードする。なぜかcsvの2行目と2列目(ここには品詞)が入っているを削除する必要がある。
  4. Rで加工する。igraphというパッケージを使い、最後にtkplotでグラフデータを描画して終わり。

このようなグラフができる。network001
これは「小林節」で検索したもの。実際には630 x 254のマトリックスになった。これを全てプロットすると読めなくなくなる。まだニュースが出てすぐなので「ニュースをそのまま伝える」中立的な内容が多い。もちろん、肯定的なデータや否定的なデータが混じっている。いちおうPostScriptで保存できるのだが、日本語データが全て飛んでいた。
このレベルだと実際に文章を読んだ方が早い。100しかないのだから、肯定的な呟きと否定的な呟きを分類すればよいわけだ。
試しに「民主党」でも試してみたのだが、こちらは誹謗中傷ツイートが多い。なぜか同じような文面をコピペしたものばかりである。テキストマイニングなので、当然情報の信憑性までは審議できないのだ。噂によると工作員がいるということなのだが、普段Twitterをしていても全く目にしないものばかりだ。広がりという点でどうなのだろう、などと思う。

光回線はそんなに早くしてどうするのかというくらい早い

光ファイバーに変えた。今までADSL3Mという回線を使っていた。そこで2Gbpsまで出るというサービスに変えたのだ。実測値で見ると測度が20倍くらいになった。光ファイバーの価格は下がっている。電話を光にすると安くなるので、電話とインターネットをあわせた出費はほとんど変わらない。
正直ウェブサイトの閲覧やメールのダウンロードなどが早くなったという感じはしない。つまりウェブサイトの読み込みが体感で20倍早くなったりはしないのだ。
実際に計測してみると、ac接続できる機器の速度は14Mbpsだった。b/g接続しかできない機器(最大54Mbps)では、11Mbpsと3.5Mbps程度。有線(最大速度100Mbps)でつないだところ42Mbpsという値が出た。なんとなく100Mbpsでてもおかしくない気がするのだが、実際はこんなものらしい。それでも今までの100倍だ。
ちまたに出ているアフィリエイトと思われるサイトには900Mbpsも出たなどという勇ましい記事が溢れているので、数字を見た限りは「なんだ遅いじゃないか」と少しがっかりした
もちろん、ボトルネックは回線速度ではなくパソコンなどの機材の方だということは分かっている。ケーブルもCATR5では100Mbpsにしか対応しないそうだ。(5eは1000Mbps対応)そんなに速い速度でつなげる機器があまりないので、ケーブルの規格など気にした事はなかったのだ。だから、実際に最高のスペックでどれくらい出ているのかはよく分からない。
さて、実際にどれくらいのスペックが「必要」なものだろうか。試しに手元にある640×360のmpeg4動画を再生してみたら転送レートは356kbpsだった。動画でもそんなものらしい。まあYouTubeもHD画像じゃないとイヤだという人もいるのだろうが、正直小さい画面でみると、480pあたりと画質の違いが分からなかった。
高速通信回線の最大のメリットはアプリケーションや重いファイルのダウンロードだろう。40MBくらいあるブラウザーのアップデート版が1分以内にダウンロードできたときには感動した。iOSのアップデートも140MB程度あったのだが、すんなりとアップデートできた。これまではちょっとしたアプリケーションのダウンロードにも20分くらいかかっていたのだ。ブログのバックアップデータも30MB程度あるのだが、これもすんなりとダウンロードできた。これからはiPadにあるビデオなんかをクラウドにストレスなくバックアップできる。
FTPソフトで38MBのデータをダウンロードするのにかかった時間は36秒だった。ブラウザー経由で46MBのデータをダウンロードして29秒。ざっと計算すると1GB程度のデータをダウンロードしても10分程度ということになる。ノートブック版のUbuntuのデータ量は700MBということで、OSのダウンロードが家庭用に取り扱うデータの最大値になるのではないかと思う。
一台のパソコンではそれほどの速度を体験することはできないのだが、回線が太いメリットは同時接続しても速度が落ちない所だろう。どうしてもスピードテストの数字ばかりに注目しがちだが、一台でビデオを見ながら、もう一台でデータをダウンロードするなどといった使い方ができる。
また、ONUとルーターを一体化すると、ボトルネックにならなくなる。そこで、高速回線のメリットを最大限に享受できるということである。サービスの申し込み方によっては、先にONUが来て、別の会社がルーターを準備するなどということがあるようなのだが、一体型サービスを申し込むとこのような失敗をしなくてすむ。
さて、ここまで書いて来て「速度はそんなに出なくてもいいから価格が1/2にならないのかなあ」などと思った。だが、固定サービスは設備の他に回線も整備しなければならない。回線のメンテナンスには膨大な人件費がかかるだろう。だから、光回線の費用と速度はあまり関係しないのではないかと思われる。
そう思って調べてみると、世間的には電波への移行が進みつつあるようだ。固定サービス(光や電話)の需要はわずかながら減っているらしい。固定電話そのものをなくしてしまえば、全体の費用は格段に安くなる。選択肢としては、220Mbps程度のwimaxがある。機器の性能を考えても悪い選択肢ではない。
固定系でもDSLの利用率はかなり下がっているようなのだが、地域や年齢層によっては未だにほとんどの人がメタル回線を使っているなどということもあり得る。住んでいる地域によって、見える景色がかなり違うのかもしれない。

アドレスブックを結合する

現在では様々な住所を集約するサービスがある。中でも出来が良いのはGoogleだ。管理できる項目が多く、重複したアドレス帳を結合する機能がついている。Gmailで送信したアドレスも自動的に記録される。

新しいパソコンではiCloudを使うとよいらしい

新しいパソコンを持っている場合には、まず全てのアドレスをiCloudに集約する。その後、iCloudの連携機能(Macintoshの場合はMailにWindowsの場合はOutlookに)を使うとよいようだ。

古いパソコンではGoogleに結合する

一方で取り残されているデバイスもある。ガラケーにはそもそもアドレス同期やインポートという概念がない。古いパソコンのメールソフトも自動では同期してくれない。
そこで、各所のデータをGoogleに集めて結合するのが一番面倒がなさそうだ。いったん、結合が終ったらすべてをダウンロードしてパソコンに戻す。念のためにバックアップを取ってからパソコン上のデータを全て消して、作り直した。
ポイントになるのはよみがなと氏名だった。Googleの準備しているエディターはあまり使い勝手が良くない。外国人と日本人が混じっていると氏名がごっちゃになる。またソートすることを考えると日本語名にはよみがなが必須だ。結局、慣れているパソコン上の連絡帳でデータを整えてから、Googleで連携を取るという方法を取らざるを得なかった。なおGoogleの連絡帳(Googleコンタクト)には新旧二つのインターフェイスがあり、それぞれ微妙にできる事が違う。やり取りにはvCardという形式を使う。

iOSで複数アカウントを整理する

これとは別にiPadとiPhoneを使ってアドレス帳を管理した。まず、iPadを使って家族のアドレスを打ち込む。iPadは複数のアカウントを管理することができる。注意点はデフォルトのアカウントを決めておく事だ。全てここに集約されることになる。iPadで情報を入力すると自動的にiPhoneにも同期される。デフォルトでないアドレス帳に登録する場合には[グループ]から他のアカウントを表示させないようにしてから登録する。
iPhoneはCardDav規格を使ってGoogleと連絡帳を同期できる。例えば家族と共有したい住所だけはiClouldで管理し、プライベートのアドレスにGoogleを使う事もできる。

Googleを使って取りあえず連絡が取れるようにしておく

既にGoogleに登録されているメールアドレスがあれば、自動的に「接続プロフィール」として表示してくれる。この管理方法はすこし複雑だ。今の所https://aboutme.google.com/(Googleユーザー情報)というサービスがありここから情報を管理する。実際に表示されるのはhttp://plus.google.com/だ。Twitterのようにフィードが表示されるようになっていて名前をクリックすると公開されている連絡先を表示することができる。
公開範囲を決めることができるのだが、少しクセがある。サークルという概念を使う。サークルに含めた人だけに情報を共有する。中にフォローという特殊なサークルがあり、ここに加えておくとTwitterのように情報をフォローすることができる。

やっぱりMacがいいんじゃない?

安いパソコンの話を書いていて、いまどきのマックはいくらするんだろうと思って調べてみた。意外なことに一番安いので58,000円だ。さらに素敵なことに最初からビデオ編集ソフト、写真管理ソフト、ワードプロセッサ、スプレッドシートがついている。ついていないのはグラフィックソフトぐらいだろう。こちらはAdobe商品を買うことになるのだろう。
さらに良いところはメンテナンス性のよさだ。最悪OSが吹っ飛んでもインターネット接続さえあれば復旧ができるらしい。さらに写真、連絡先、パスワードなどはオンライン上でバックアップが取られる。メールもクラウドにして(iCloudやGmailなどが使える)、Google Driveなどを組み合わせれば、ハードディスクが吹っ飛んでもデータの復旧ができる。Time Machineというバックアップツールがついているのだが、いらないんじゃないかと思うくらいだ。
意外と安いんだなあと思ったのだが、いったん安いのを見つけるとさらに安いのを探したくなるのが人情というものだ。Amzonで調べてみた。すると種類がたくさんありすぎてよく分からない。安いのは20000円くらいからある。

ポイントはいくつかある。まずOSだ。最近のものが使えないとあまり意味がない。調べると最新OS(10.11)が使えるのは、2009年以降に作られたモデルらしい。2009年春のモデルはOSが10.5なので3500円出して10.6にしないとアップデートできない。ということで、2009年秋冬のモデルがよさそうだ。これは36000円程度になる。このOSにはワープロとスプレッドシートがついていないので、別途買って2800円で買うことになる。また、2009年モデルは10.11の機能をフルに使うことができないのだという。また、HDMIに対応していないので2009年モデルをテレビで使うには別途ケーブルが必要。
じゃあ、面倒のない新品が最善の選択肢かと言えばそうでもないらしい。最新のモデルにはOD(CD-ROM/DVD-ROM)がついていない。まあ、これはネット接続でなんとかなりそうだ。問題になりそうなのがメモリが増設できないという点だ。
OS10.11(El Capitan)は4GBでぎりぎりという声もある。8GBにするのに12000円かかる。すると70000円になってしまうのだ。どうしてボードに半田付けしてしまったのかはわからないが、とにかくそうなっているのだという。買ってから足りなかったでは遅いが、無駄な出費はしたくない。悩ましいところである。1.4Ghz.版はあまり評判が良くない。もうひとつ上のランクを買うと10万円程度にはなる。
これをまとめたのが次の表だ。Amazonで出物を見つけたら、この表と首っ引きで見てみるとよいかもしれない。なおMac MIniにはカメラがついていないのでビデオチャットやSkypeを使う場合には別途用意する必要がある。マウスとキーボードもない。あと、持ち運べないので、スタバでドヤ顔はできない。

光学コウガクドライブ OS El Capitan メモリ交換コウカン CPU ポート Page/Number iLife HDMI 価格カカク
Early 2006 OS 10.4 NG 1.66Ghz Firewire400/USB2.0 2800エン × 21000エン
Mid 2007 OS 10.5 NG 2GHz Firewire400/USB2.0 2800エン × 24000エン
Early 2009 OS 10.5 OK 2GHz Firewire800/USB2.0 2800エン × 33264エン
Late 2009 OS 10.6 OK 2.26Ghz Firewire800/USB2.0 付属フゾク × 34500エン
Mid 2010 OS 10.6 OK 2.4/2.6Ghz Core2 Duo Firewire800/USB2.0 2800エン
Mid 2011 × Lion OK 2.3/2.5ZGHz i5/i7 Firewire800/Thunderbolt/USB2.0 2800エン × 56138エン
Late 2012 × Mountain Lion OK 2.5/2.7Ghz i5/i8 Firewire800/Thunderbolt/USB3.0 2800エン
Late 2014 × Yosemite OK × 1.4Ghz〜 i5/i9 Thunderbolt/USB3.0 付属フゾク 58800エン
Late 2014 × Yosemite OK × 1.4Ghz〜 i5/i9 Thunderbolt/USB3.0 付属フゾク 70800エン

中古屋で買った古いパソコンはどこまで活用できるのか

最近、中古ショップでLenovoの古いノートパソコンS10eを買った。2008年頃に売り出されたと見られるネットブックと呼ばれるものだ。XPのサポートが切れたので、この種のパソコンが安値で売りに出されるようになったのだろう。3000円から5000円くらいで売られている。
この安いパソコンの一番のメリットは使い倒せるところだ。高いパソコンは壊れてはいけないと思うあまり外に持ち出して気軽に使いにくい。だが、安物のパソコンだったらベッドに持ち出して寝転がって使うこともできる。画面が小さくて不便なのだが、その分持ち運びも楽だ。ちょっとした調べ物なんかには却って便利である。
思い切ってメディアパソコンとして使うのも手だ。地デジのチューナーを300円で拾った。テレビを見たり簡単な録画機として使える。いまのところはiTunesなんかも使えるので、CDやビデオをPCに保存して楽しむこともできる。現在はChromeが使えるのだが、2016年3月にサポートが切れる。ダウンロードするなら今のうち。Firefoxはしばらくサポートしてくれそうだ。ウィルスを避けたければ、メールはGmailなどを使い、ウェブ上から閲覧することになるのだろう。
いくつか眺めてみてわかったのだが、XPはサポート期間が長かったので、XPパソコンのスペックにも幅がある。後期に作られたものはWindows10を乗せてもなんとか使えそうだ。しかし、初期から中期のものは使えそうにない。チェックするポイントはいくつかありそうだ。まずはCPUパワー。プロセッサは1Ghz以上は欲しい。そしてメモリも1.5~2GB程度は積めないWindows10には厳しいようだ。中古屋ではわからないのでスマホなんかを持ち出してその場で拡張性を調べることになる。
自分でアップグレードしなくても、中古のWindows7や8.1パソコンが10,000円~20,000円程度で売られている。AmazonでチェックしたところOfficeが入っているものもあった。Windows10の無料アップデート期間は2016年7月28日までだそうだ。ただし、3GB程度のデータをダウンロードする必要がある。中古ではないスティックPCも20,000円程度で売られている。
ではなぜ、パソコンがアップグレードできることを熱心に書くのかなと思う方もいらっしゃるのかもしれない。Macintoshは昔からスタイルを優先させてきたので、とてもクールなデザインなのだがメンテナンス性があまりよくない。ねじをたくさんはずしてやっとメモリやHDDを交換できるようになっている。最近は換装も簡単になってきているらしいのだが、それでもSSDの形が特殊だったりする。安いPCは加工の手間を簡便化しているので、ユーザによる交換も楽なのである。持ち運びに気を使わず、使い倒せて改造も簡単というのが中古PCの利点なのだ。トラブルも含めて楽しいくらいに思えないと面白くないかもしれない。
メモリの価格は安くなっている。S10eは、DDR2 SODIMMという規格の物を使うようなのだが、3,000円も出せば2GBのものが手に入るようである。価格はかなり安くなっている。中古屋で売られているパソコンはロースペックのものが多い。つまり、作りを簡単にして安くしているのだ。決して性能が悪いというわけではない。Macのようなスマートな形にはならないのがメンテナンスが楽になっている。S10eもプラスティックの筺体で安っぽい作りなのだが、ドライバーでねじを2つ外すだけで簡単にハードディスクとメモリが交換できるようになっている。
かつてネットブックで流行したのは、ハードディスクをSSDに変えるという方法らしい。10,000円も出せば選択肢は多い。価格だけで選びたくなるのだが、いろいろあるようだ。付属のコピーソフト(ハードディスクの内容をSSDに移す)に差があるようなのだ。また、SATAをUSBに変換するコードを別途購入するか、ハードディスクケースを買わないとハードディスクの内容をコピーできないようなのだ。ソリューションで一番安いのは2000円程度。SSDそのものは安くなっているのだが「爆速」を体験するだけにしては、ちょっと大げさな投資かなあと思う。
安いパソコンの一番の出費はOSだ。現在Windows10の価格は17,000円程度。WordやExcelも買い揃えるとかなりの出費になってしまう。結局パソコンの値段ってWindowsのライセンス代なのだ。それを抑えることができるのがUbuntuなどの無料OSだ。ただし、最新版を走らせるには少し荷が重いようだ。古いバージョンを使うことになる。セキュリティ的にどうなんだという懸念はあるが、Windowsよりも狙われにくいという理屈らしい。この辺は自己責任の世界だろう。
一番確実な方法は既存のHDDをはずして新しいものに付け替える方法だ。別途CD-ROM/DVD-ROMなどが書き込みできる装置が必要になる。8GBや16GBのUSBメモリにOSを入れる方法もあるようだ。USBメモリそのものは安くなっているが、内蔵のHDD/SSDが使えなくなるのはちょっと無駄なのかなあとも思う。Ubuntuには無料のOfficeソフトやグラフィックソフトがついているそうである。また、Firefoxが標準で入っているので、今使っているパソコンの設定をそのまま持ち出すことができる。Ubuntuにはノートパソコン用の改造を施したRemixというものがあるということである。

ごめんよパナソニック – ガラケーがスマホに負けた、多分たった一つの理由

手持ちのデジカメを比較してみた。「カメラ専用機」が最高だろうと思っていたが。もしかしたらiPhoneもスマホだからすごいのかもしれないと思ったからだ。その一方、ガラケーには期待していなかった。ガラケーは時代遅れだし、カメラなんかおまけ機能の機能に過ぎないはずだと思ったのだ。
この常識は間違っていた。スペックの上ではガラケーのカメラが一番だったのだ。P-04という機種なのだが、解像度が13Mもあり、タップするとフォーカスが変わる機能(タッチシャッター)まで付いていた。VIERAケータイというのだそうだ。テレビ「VIERA」に付いている高画質技術のモバイル版が使われているのだという。これに比べて、iPhoneのカメラは8Mに過ぎない。
ある意味でガラケーを見直した。これは日本の技術の粋が集められた「意外とできるやつ」だったのである。今度ガラケーをバカにされたら(まあ、面と向かってそんなことを言う人はいないだろうが)モノを知らないやつだと言い返してやろうかとすら思った。
だが、やはりガラケーの評判はよろしくない。なぜなのだろうか。たった一つの要素が欠けているからだ。
8MカメラというのはA4の用紙にも十分に印刷できるレベルらしい。Twitterにアップするにはこれでも大きすぎるというレベルだ。iPhoneは機能を割り切っているのだ。そのかわり、操作性には力を入れている。最小の操作で、写真共有・バックアップ・SNS投稿などができる。簡単に、シームレスに操作ができるのがiPhoneの魅力だ。
一方、VIERAケータイは複雑だ。できることが多いのはよいのだが、アイコンが多すぎる。「すべての機能は揃えたので、あとは勝手にやってくれ」と言わんばかりだ。また、この携帯電話は電話機として使うモード(ノーマルスタイルと呼ばれている)と家電として使うモード(ビューアスタイル)があり、個別のインターフェイスがある。つまり、1つの機械を買って2つの操作体系を覚える必要がある。
vieraインターフェイスが違っているのは、表(ノーマル)では使えないタッチスクリーンが裏(ビューワ)で機能するようになっているからだ。例えていうとWindows(マウスが使える)とMS-DOS(マウスが使えない)を共用しているような印象だ。
iPhoneは総合的に考えられている。1つ1つの課題のために部品を組み合わせてゆくという考え方だ。それぞれのスペックはそれほど高くないかもしれないが、いろいろなことができる。こうした作業の固まりを「アプリケーション」と呼んでいる。アプリケーションはいくつかの問題を解決する「ソリューション」だ。
VIERAケータイにも「ブログ投稿」という機能がある。小さくした写真をメールで送れるようにはなっている。しかし、直接SNSに上げることはできない。カメラにはカメラの枠があり、枠間の連携は一切考えられていない。いろんなことができそうで、どこへも行けない仕組みになっている。
つまり、VIERAケータイにはこのアプリケーションという考え方がない。このため「写真を撮る」機能と「保存した写真を見る」機能が別のメニューに割り当てられている。「いろいろ用意したから、あとは勝手にやれ」というのがパナソニックなどの日本の家電のやり方である。アプリという概念がないのだ。
だから、VIERAケータイのエンジニアは「カメラの解像度を増やす」という方向にしか性能を向上させることができない。ユーザーにソリューションを提供できないし、ソリューションの簡単さ(エクスペリエンス)を与えることもできない。解像度を上げてゆけばやがてオーバースペックになり、そこで差別化ができなくなる。
VIERAケータイの各機能はスマホより優れている。こうした機能は一朝一夕で作られたものではなく、エンジニアたちの努力の賜物である。決してさぼっていたわけではないのである。にも関わらず「ガラケーはなんとなく遅れていて恥ずかしい」という印象すらある。
たった一つ「アプリ」という概念がなかったがために、スペックの低いスマホに負けてしまったのである。

デジタルビデオの規格と変遷

一世代前の機材とPCを使ってデジタルビデオの取り込みをした。同じ画面サイズでキャプチャしているはずなのに使用する圧縮方式(コーデック)によって取り込みされるピクセルサイズと表示されるピクセルサイズが違ってしまった。「なぜ、このようなことが起こるのか」と調べてみると、理解するのはかなり複雑な基礎知識が必要だということが分かり、それをまとるとかなりの長文になってしまった。分かり易く解説するとなるとこれ以上の図式が必要になるものと思われる。
混乱の原因は歴史的な経緯による。もともとビデオはアナログで、画面サイズは4:3と決まっていた。パソコンもアナログ変換したテレビに映していたので画面比率は4:3だった。ところがテレビ電話が4:3ではない画面構成を持っていた為に最初の互換性の問題が起きた。次にアナログビデオをデジタル化して編集する事が一般化したために混乱が起き(映像圧縮技術のために切り捨てが必要だった)た。2003年頃からPCのワイドスクリーン化が起き、「最も美しい」とされる黄金比に合わせて16:10というモニターに移行した。ところが映像が16:9を採用したので、パソコンの画面もそれに合わせ16:9に落ち着いた。16は4の2乗であり、9は3の2乗だ。算術的に計算がしやすかったものと思われる。16:9の画面比率は2008年頃からPCでも一般化した。
このため携帯電話ではCIF体系が残り、初期のデジタルビデオは2:3の比率を4:3や16:9にして表示する方法が取られた。さらに現在のデジタルビデオは16:9を利用している。携帯電話の中にはデジタルビデオのソフトウェアがCIF系に対応しているのに、ワンセグを放送する都合上16:9の画面を持っているものがある。

ハイビジョン・フルハイビジョン

フルハイビジョンの規格は1920 x 1080ピクセル。日欧米で放送規格が異なり、日本ではISDBという方式を採用されている。DVDは1280 x 720ピクセルを採用。この大きさをwxgaと呼ぶ。数字が小さいので解像度が低いように思われるが、放送はインターレースであり、DVDはプログレッシブ方式を採用している。放送の形式を1080iと呼び、DVDは720pと呼ばれる。この2つが「ハイビジョン(HD)」だ。
地デジの転送速度は17Mbps程度。

H.264/MPEG-4 AVC

デジタルビデオの圧縮方法をコーデックと呼ぶ。標準化団体が2つありそれぞれMPEGとH26xと呼ぶ別々の規格を作っていた。もともとMPEG-4は携帯端末向けの規格であり10kから100k台の転送レートに対応していた。この2つの団体が共同で開発した規格がH.264/MPEG-4 AVCである。H.264/MPEG-4 AVCは携帯端末から放送までの幅広く対応しており、単にH.264と呼ばれることがある。これまで使われてきたH.262と比べるとデータ量が半分で済むというメリットがあるが、計算に負荷がかかるのでスペックの低いパソコンなどでは取り込みや再生がうまくゆかないことがある。
一方、H.264ではないmpeg4コーデックもある。一世代前のコーデックだとされているのだが、古い世代のパソコンだとこちらの方が使い勝手がよいかもしれない。H.264/MPEG-4 AVCもMPEG4も同じ.mp4という拡張子が使われることがあるので、ファイル名から判断することはできない。MPEG4で.movという拡張子の付いたものもある。

VP9

H.264の次世代コーデックをH.265/HEVCと呼ぶ。この系統のコーデックは主要な映像メーカーが支持しているのだが、特許料が必要だ。そのため、Googleでは特許料のかからないVP9というコーデックを推進している。YouTubeを対応ブラウザーで閲覧するとVP9で再生されるのだという。このファイル形式の拡張子は.webmだ。YouTubeビデオは、mp4(H.264/MPEG-4 AVC)と.webmのファイルがダウンロードできる。

モバイル機器向けのビデオ形式

ビデオ機器のハイレゾ(高解像度化)が進むとよよりよい画質で再生したくなるのが人情だ。しかし、様々な事情によりハイレゾ画像が使えないことがある。PCの処理が追いつかない、インターネット回線の転送レートが低い、画面が小さいという理由が考えられる。
例えば、ネット回線の細い環境でYouTubeを見ると、144p、240p、360p(数字は高さ)程度の解像度が使われることが多い。144pの転送レートは240kbps程度で画像サイズは256 x 144ピクセルだ。240pの転送レートは400kbps程度で画像サイズは426 x 240ピクセル。さらに360pの転送レートは500kbps程度で解像度は640 x 360ピクセルである。480pになるとアナログテレビやビデオと同程度の画質となる。
ワンセグ放送の解像度は320 x 180ピクセルであり、フレームレートは15である。必要な回線は映像が128kbps、音声が64kbps、データが60kbpsとのことである。なおコーデックはH.264/MPEG-4 AVC。

DV

SDデジタルビデオの規格であり、コーデックの名前としても使われる。テープを使ったビデオカメラなどで使われた。解像度は720 x 480ピクセル。2000年代の前半に使われた。圧縮率はMPEG系と比べると高くないが、ファイヤワイヤケーブルを使ってそのままPCにデータが転送されるので人気があった。色滲みがあり放送業界では敬遠されることがあったという。
転送速度は25Mbps程度。iMovie5から16:9のビデオが取り込めるようになったがそれまでは4:3にしか対応していなかった。
DV形式でキャプチャした画像の解像度は3:2だが、パソコン上では16:9で表示される。画像加工ソフトウェアでは3:2(720×480)で認識される場合がある。このため、キャプチャした映像をソフトウェアで加工すると、表示解像度が変わってしまうことがあり、取り扱いが難しい。
パソコンで使われるピクセルは正方形だ。しかし、アナログ動画(走査線486)をサンプリングするために720 x 486ピクセルでサンプリングするという方法が考案された。縦横比が4:3にならないので、無理矢理合わせる為に正方形でないピクセル方式が開発された。
DVやMPEGは圧縮の関係上ピクセル数が16の倍数でなければならなかった。このためアナログのサンプリングを基礎に720 x 480ピクセルという概念が生まれた。上2ピクセル、下4ピクセルは切り捨てられた。これをDV解像度と呼んだ。(以上参考はこちら
SDの時代はこの2:3の画像を4:3で表示していた。テープで撮影したデータをサンプリングして取り込み、PC上で編集する「ノンリニア」という編集方式が使われていた。AdobeのPremierやFinal Cut Proなどが有名だ。
その後16:9の画面比が登場し、2:3で記録して4:3ないしは16:9で表示するということになった。このような経緯で様々な比率が混在したため、混乱が生じて映像制作者たちを悩ませる事となった。

AVCHD

AVCHDはHDデジタルビデオの規格として開発された。8センチDVDで記録できるようにH.264/MPEG-4 AVC方式で圧縮している。ミニDVDではなくSDHCカードに録画する機器もある。ビットレートは最大28Mbps。1080pや720pに対応した製品が作られている。解像度が最初から16:9に設定されているのでパソコン表示との間に差異はなく、取り扱いが楽になった。
iMovie8からAVCHDに対応するようになった。IMovie8はPowerPC G4には対応していない。iPad2で撮影した動画は最初からH.264/MPEG-4 AVCで圧縮されており、16:9で撮影されるのでパソコンの取り扱いが楽である。

モバイル機器におけるデジタルビデオ

iPhone3Gsで撮影できるムービーサイズは640 x 480だ。これはVGAと呼ばれる4:3の比率を持ったムービーだ。これを480 x 320(3:2)の画面で表示する。iPad2はHDムービー(1280 x 720)を撮影できる。これは16:9である。このように、同じメーカーでも撮影機器によって対応する比率は異なっている。
AppleのビデオにはiTunes経由で取り込むビデオとユーザーが撮影したビデオの2つの体系がある。ユーザーが撮影したビデオはDCIM(Digital Camera Image)というフォルダで管理され、英文字と数字8文字のファイル名でなければならないなど様々な規制がある。
一方、パナソニックの携帯電話P-04Cは854 x 480ピクセル(16:9)が表示できる。これをiPhone3Gsより一回り小さい画面に表示する。これはこの携帯電話がワンセグを表示できるようになっているからだと思われる。ところがワンセグの解像度は320 x 180ピクセルに過ぎない。またユーザーが編集できるビデオもQCIF(176×144)というもともとはテレビ電話の為に作られたCIF体系か4:3のVGA体系が基準になっている。携帯電話のファイルは3GPPという規格の元で作られる。このようにPCで取り扱いが難しいという問題がああり、また本来の高い解像度を活かしきれているとは言えない。
携帯電話のムービーはDCIMフォルダ直下のSD_VIDEOというフォルダで管理される。ワンセグのデータもムービーも同じだ。DCIMフォルダなのでファイル名に規約があり、自由にファイル名を付ける事はできない。