BZOJ1076 || 洛谷P2473 [SCOI2008]獎勵關【狀壓&&期望DP】
阿新 • • 發佈:2018-12-13
Time Limit: 10 Sec Memory Limit: 128 MB
Description
你正在玩你最喜歡的電子遊戲,並且剛剛進入一個獎勵關。在這個獎勵關裡,系統將依次隨機丟擲k次寶物, 每次你都可以選擇吃或者不吃(必須在丟擲下一個寶物之前做出選擇,且現在決定不吃的寶物以後也不能再吃)。 寶物一共有n種,系統每次丟擲這n種寶物的概率都相同且相互獨立。也就是說,即使前k-1次系統都丟擲寶物1( 這種情況是有可能出現的,儘管概率非常小),第k次丟擲各個寶物的概率依然均為1/n。 獲取第i種寶物將得到Pi 分,但並不是每種寶物都是可以隨意獲取的。第i種寶物有一個前提寶物集合Si。只有當Si中所有寶物都至少吃過 一次,才能吃第i種寶物(如果系統丟擲了一個目前不能吃的寶物,相當於白白的損失了一次機會)。注意,Pi可 以是負數,但如果它是很多高分寶物的前提,損失短期利益而吃掉這個負分寶物將獲得更大的長期利益。 假設你 採取最優策略,平均情況你一共能在獎勵關得到多少分值?
Input
第一行為兩個正整數k和n,即寶物的數量和種類。以下n行分別描述一種寶物,其中第一個整數代表分值,隨 後的整數依次代表該寶物的各個前提寶物(各寶物編號為1到n),以0結尾。
Output
輸出一個實數,保留六位小數,即在最優策略下平均情況的得分。
HINT
1<=k<=100,1<=n<=15,分值為內的整數。
題目分析
這題主要的難點在於要逆推
先考慮正推 如果表示 前輪是否取過的狀態為,到第輪的期望最大分值 我們會發現對於前輪可能無法存在狀態 這樣最後答案顯然會包含不合法的轉移在內
考慮逆推 表示 假設前輪是否取過的狀態為,從第輪到第輪的期望最大分值
如果符合某個寶物的要求 那麼,即撿與不撿兩種情況 如果不符合則
這樣最後答案一定不會有不合法的轉移在內
#include<iostream>
#include<cmath>
#include<algorithm>
#include<queue>
#include<cstring>
#include<cstdio>
using namespace std;
typedef long long lt;
typedef double dd;
int read()
{
int f=1,x=0;
char ss=getchar();
while(ss<'0'||ss>'9'){if(ss=='-')f=-1;ss=getchar();}
while(ss>='0'&&ss<='9'){x=x*10+ss-'0';ss=getchar();}
return f*x;
}
const int maxn=50010;
int n,m;
int pi[20],rem[20];
dd dp[110][maxn],ans;
int main()
{
m=read();n=read();
for(int i=1;i<=n;++i)
{
pi[i]=read();int x;
while(scanf("%d",&x)!=EOF)
{
if(x==0) break;
rem[i]|=1<<x-1;
}
}
for(int i=m;i>=1;--i)
for(int j=0;j<=(1<<n)-1;++j)
{
for(int k=1;k<=n;++k)
if(!((~j)&rem[k]))
dp[i][j]+=max(dp[i+1][j],dp[i+1][j|(1<<k-1)]+pi[k]);
else dp[i][j]+=dp[i+1][j];
dp[i][j]/=(dd)n;
}
printf("%.6lf",dp[1][0]);
return 0;
}