virshのvcpupinとvcpuinfoで表示されるaffinityの違い

以前virsh vcpupin と virsh vcpuinfo で表示されるCPUのAffinity情報が違うということがありました. % sudo virsh vcpupin vm1 VCPU CPU Affinity ---------------------- 0 0-47 1 0-47 2 0-47 [...] % sudo virsh vcpuinfo vm1 VCPU: 0 CPU: 25 State: r…

bpftrace 2020

bpf

(この記事はLinux Advent Calendar 2020 - Qiitaの2日目の記事です.前日はmasami256さんのTiny Core LinuxでLinuxのinitプロセスが実行されるあたりを調べるでした.) みなさんこんにちはこんばんは.bpftraceを使っていますか? (e)BPFといえば最近は専らCi…

システム系論文の情報収集方法

(この記事は東京大学 品川研究室 Advent Calendar 2020の1日目の記事として書かれたものです) この記事では簡単にシステム系の会議の論文に関してどうやって論文を探して読むのか.個人的な方法を書いてみようと思います.ここに書いてあることが別にすべて…

macでbpftraceを試す

全然使ってなかったので最近気づいたのですが,いつのまにか Docker for mac で使われている linuxkit のカーネルが 5.4ベースになっていて,BPFの基本的な機能が使えるようになってました(念のため言っておくと,docker for macはLinuxをハイパーバイザ上…

BPF_PROG_TYPE_RAW_TRACEPOINT (raw tracepoint) について

BPFのプログラムタイプの一つにBPF_PROG_TYPE_RAW_TRACEPOINTがあります (commit).これを利用するとtracepointの変換前の引数にアクセスすることができます. 例としてkernel/sched/core.cで定義されるsched_swtich のtracepointを考えます. trace_sched_s…

BPFプログラムからカーネル内のデータ構造にアクセスする方法

kprobeやtracepointなどにアタッチしたBPFプログラムは,BPF_FUNC_probe_read()関数でカーネル内のデータ構造にアクセスすることができます.これはprobe_kernel_read()のラッパーで,もし変な領域にアクセスしようした場合(page faultが発生した場合)は-E…

RustでUnix Domain Socketを扱う方法

"rust domain socket"とかで検索するといろいろ引っかかるけどいかんせんライブラリの更新が早くて情報が古かったりするのでここに現状を書きます(この文章もすぐに古くなるかもしれないので後から読む人は注意してください..) 基本 std::os::unix::net 元…

Rustのasync/awaitを使ったecho serverの実装

rust 1.39でasync/await構文が安定化されます. 巷で話題の機能ですが,asycn/await何も分からん...ということで話題に乗り遅れないためにasync/awaitを利用してecho serverを実装してみます. OSはLinuxが対象です.ソースはここにあります. echo server a…

x2APICとinterrupt remapping

以前IOAPICやMSI/MSI-Xを利用するデバイスでx2apicを利用するにはinterrupt remapingを利用すると書きました. 今回実際のマッピングを調べることがあったので,ここに要点をまとめます. 図はVT-dのドキュメントからの引用です. 前提 Interrupt Remapping…

複数の仮想ページに同じ物理ページをマッピングする方法 (Linux)

小ネタ. Linuxで複数の仮想ページを一つの物理ページにマッピングする方法です. 連続した仮想ページを全て同じ物理ページにマッピングしたいということがあって,原理的にはページテーブルで同じ領域を指すだけです.でもユーザ空間からはどうするんだっけ…

American Fuzzy Lop (AFL)の構造

AFLとは American Fuzzy Lop (AFL)はファジングツールの一つです. ファジングとはプログラムの脆弱性検査手法の一つで,簡単に言ってしまえばあるプログラムをランダムな引数で実行することを繰り返して,プログラムがクラッシュするような入力を探そうとい…

NVDIMMとACPI

DIMMに刺せる不揮発性メモリ(NVDIMM*1 )はACPIからどのように扱われるかというメモ. TL;DR ACPIのNFIT (NVDIMM Firmware Interaface Table)に情報が入っています. QEMUでのエミュレーション QEMUのNVDIMMエミュレーションで確認します. https://github.co…

クロスプラットフォームなハイパーバイザ Intel HAXM

HAXM (Hardware Accelerated Execution Manager)はIntelが作成しているハイパーバイザです.もとはAndroid Emulatorのバックエンドとして開発が開始されたもののようです. 以下のような特徴があります. KVMのようなインタフェース QEMUのサポート クロスプ…

KVMの準仮想化機能

KVMにはいくつか準仮想化インタフェースが存在します. KVMはHWによる仮想化支援機構を利用してゲストを実行するので,準仮想化機能を使用しなくても任意のOSが実行できますが,準仮想化機能を利用することでVMのパフォーマンスを向上できる場合があります.…

KVMにおけるcpuid命令の取り扱い

前提 x86/Intelの話です.AMDでも多分同様. cpuid命令の取り扱い cpuid命令はKVM内で処理されます. 具体的には arch/x86/kvm/vmx.c:handle_cpuid() => arch/x86/kvm/cpuid.c:kvm_emulate_cpuid() => arch/x86/kvm/cpuid.c:kvm_cpuid() => arch/x86/kvm/cpu…

rustのIteratorの実装

関連するトレイト Iterator libcore/iter/traits/itetarot.rs pub trait Iterator { type Item; fn next(&mut self) -> Option<Self::Item>; ... } イテレータの関数のためのトレイト next()さえ実装すれば,あとはデフォルト定義が存在 IntoIterator libcore/iter/trait</self::item>…

rustのArcについてその2

前回 以下で利用したplaygroundのリンク スライスからのArcの作成 Arcのソースをみていて気づきましたが,impl<T: Clone> From<&[T]> for Arc<[T]>などが実装されており,CopyあるいはCloneが実装されているスライスからArcを作成することができます.(RCも同様です)</t:>…

rustのMutexの内部構造

前回に引き続き,今度はMutexの話です. Raph Levien氏の図を引用すると,Mutexは以下のような構造になっています. Raph Levien, Copyright 2017 Google Inc., released under Creative Commons BY また,データ構造としては以下のように定義されています(…

rustのArcの内部構造

rustのスマートポインタの構成については,Raph Levien氏の以下の図が参考になります. Rust container cheat sheet 今回はここで特にArcについて見ていきたいと思います. Arcは以下のように定義されています(一部抜粋). pub struct Arc<T: ?Sized> { ptr: NonNull<ArcInner<T>></arcinner<t></t:>…

QEMU/KVM上のゲストのハイパーコールをQEMU側に渡す方法

前回説明したように,KVMでは,ゲストのハイパーコール(Intel CPUの場合はVMCALL命令,AMDの場合はVMMCALL命令)はKVM側で処理され,ioctl側に戻ることなくゲストに戻ります. QEMU/KVMにおいて,独自にハイパーコールを追加してQEMU側で処理するには修正が…

QEMUコードリーディングメモ

主にイベントループとKVM周り. QEMU v3.1.0 Linux v4.20 ターゲット: x86 QEMU Main Loop QEMUの主処理はGLibを使ったイベントループ. ゲストのvCPUは別のスレッドで実行(後述) vl.c:main() => vl.c:main_loop() => util/main-loop.c:main_loop_wait() =…

Bareflankを使ってみる

vmm

前から気になっていたBareflankを少し触って見ました. あまりドキュメントがないようなので半分メモがてらBareflankについて書いてみます. BareflankはいわゆるThin-hypervisorの一種です. 複数VMの動作を目的とする通常のハイパーバイザとは異なり,その…

VFIOによるデバイス操作

VFIO (Virtual Function I/O)はLinuxにおいてユーザスペースでデバイスを操作するためのフレームワークの一つです. ユザースペースドライバといえばuioもありますが,uioとVFIOの主要な違いの一つはVFIOはIOMMUを利用するという点です*1.uioはLinux 2.6.23…

KVM GPUパススルー設定

環境 i7-4790 (with VT-d) GeForce GTX 1080ti Linux Mint 18.3 Sylvia (Ubuntu xenial base) Cinnamon やりたいこと KVM上のWindowsにGPUをパススルーで接続する 現在GPUはcuda計算用に利用 (ディスプレイはi915).Windowsを使うときだけパススルーさせたい…

ACPI DMARメモ

IOMMUの情報はACPIのDMARに格納されている DMARのデータ構造は,Intel VT-d ドキュメント (Intel® Virtualization Technology for Directed I/O) の8章に書いてある ざっくり以下のような構造 DMAR (DMA Remapping Table) DRHD (DMA Remapping Hardware Unit…

perf, ftraceのしくみ

Linuxのトレーサーであるperfやftraceのツールの使い方に関する情報は結構ありますが,構造に関してはあまり見つけられなかったため,ここに簡単に調べたことをまとめようかと思います.(ツールの使い方の説明はあんまりしないです.) この文章はLinux 4.1…

VMWare Fusionメモ

以下はVMWare Fusion 10.1.1 (macOS High Sierra 10.13.3)で動作確認したものです. 設定ファイル(xxx.vmx)はVM停止中に変更する必要があります(そうでないと書き換わることがある). コマンドラインツール /Applications/VMware\ Fusion.app/Contents/L…

SpectreとeBPF

新年早々巷にいろいろと賑わいをもたらしたSpectreとMeltdownですが,Google Project Zero (GPZ)が公表したSpectreの攻撃コード例の中でeBPFが使用されていました. 安全を謳っているものの昨年もいくつか脆弱性が発見されていたので,「またeBPFか」と思っ…

x86におけるメモリアクセス権のルール

x86

定期的に忘れる気がするのでメモ.SDM Volume 3A 4.1.3, 4.6参照. 用語 supervisor mode access CPL < 3 でのアクセス user mode access CPL == 3 でのアクセス supervisor mode address page entryのU/S bitが一つでも0である領域*1 user mode addres super…

Ownership is theft? TockのTakeCellについて

tockというrust製の組み込み向けOSがあります. このtockの作成者らが2015年にOwnership is Theft: Experiences Building an Embedded OS in Rust (PLOS 2015)という論文を発表しました.そこでは著者がtockを開発する上で嵌ったownershipに関する問題と,そ…