1. 程式人生 > >bzoj1076 [SCOI2008]獎勵關

bzoj1076 [SCOI2008]獎勵關

input 平均情況 urn 一次 class 必須 style pro scan

1076: [SCOI2008]獎勵關

Time Limit: 10 Sec Memory Limit: 128 MB
Submit: 3312 Solved: 1743
[Submit][Status][Discuss]

Description

  你正在玩你最喜歡的電子遊戲,並且剛剛進入一個獎勵關。在這個獎勵關裏,系統將依次隨機拋出k次寶物,
每次你都可以選擇吃或者不吃(必須在拋出下一個寶物之前做出選擇,且現在決定不吃的寶物以後也不能再吃)。
寶物一共有n種,系統每次拋出這n種寶物的概率都相同且相互獨立。也就是說,即使前k-1次系統都拋出寶物1(
這種情況是有可能出現的,盡管概率非常小),第k次拋出各個寶物的概率依然均為1/n。 獲取第i種寶物將得到Pi
分,但並不是每種寶物都是可以隨意獲取的。第i種寶物有一個前提寶物集合Si。只有當Si中所有寶物都至少吃過
一次,才能吃第i種寶物(如果系統拋出了一個目前不能吃的寶物,相當於白白的損失了一次機會)。註意,Pi可
以是負數,但如果它是很多高分寶物的前提,損失短期利益而吃掉這個負分寶物將獲得更大的長期利益。 假設你
采取最優策略,平均情況你一共能在獎勵關得到多少分值?

Input

  第一行為兩個正整數k和n,即寶物的數量和種類。以下n行分別描述一種寶物,其中第一個整數代表分值,隨
後的整數依次代表該寶物的各個前提寶物(各寶物編號為1到n),以0結尾。

Output

  輸出一個實數,保留六位小數,即在最優策略下平均情況的得分。

Sample Input

1 2
1 0
2 0

Sample Output

1.500000

HINT

【數據規模】

1<=k<=100,1<=n<=15,分值為[-10^6,10^6]內的整數。

分析:期望+狀壓dp.

   令f(i,j)表示前i次操作中,吃的寶物的狀態為j的期望值. 每一次操作枚舉當前拋出的是哪一個寶物.f(i,j)可以轉移到f(i + 1,j | sta[k]).(在滿足條件的前提下) 轉移完後,所有轉移到的狀態除以n就是期望了.

   這樣做是錯的. 原因和bzoj1419是一樣的.倒著求即可.

#include <cstdio>
#include <cstring>
#include <iostream>
#include <algorithm>

using namespace std;

int k,n,S[20],maxx;
double f[110][(1 << 15) + 10],v[20];

int main()
{
    scanf("%d%d",&k,&n);
    maxx = (1 << n) - 1;
    
for (int i = 1; i <= n; i++) { scanf("%lf",&v[i]); int x; while (scanf("%d",&x) != EOF && x != 0) S[i] |= (1 << (x - 1)); } for (int i = k; i >= 1; i--) { for (int l = 0; l <= maxx; l++) { for (int j = 1; j <= n; j++) { int temp = l | (1 << (j - 1)); if ((S[j] & l) == S[j]) f[i][l] += max(f[i + 1][l],f[i + 1][temp] + v[j]); else f[i][l] += f[i + 1][l]; } f[i][l] /= n; } } printf("%.6lf\n",f[1][0]); return 0; }

   

bzoj1076 [SCOI2008]獎勵關